person with streams of data and light

AI 自查自纠

须知事项

采用生成式 AI (GenAI) 对成功而言至关重要,特别是当您的竞争对手也在对其工作流程、翻译内容创作和优化采取同样做法的情况下。使用 GenAI 的一项关键步骤是自查自纠。由于一些因素的影响,大型语言模型 (LLM) 可能会生成不准确的输出内容,不尽如人意。这是因为用于训练 LLM 的数据可能包含有问题或错误的信息。AI 工具有时也会出现“幻觉”,或编造一些信息。要解决 AI 输出中的问题,可以在一组初始提示中实施“自查自纠”措施。(有些专家也将它称为“自我批评”或“自我优化”。)多项研究对人们采用的方法进行了测试,这些方法要求 LLM 在交付之前审查其输出并优化响应内容。请阅读我们的博客文章,了解人们正在使用哪些技巧在 AI 解决方案中自行(或在 AI 解决方案提供商的协助下)实施自查自纠。我们还将为您介绍 AI 自查自纠的局限性。

常用的 AI 自查自纠策略

人们目前通过四种方法来实施 AI 自查自纠:

1.注重准确性的提示:有时,在一组提示中包括强调准确性的提示,这种方法很奏效。下面是 X 上的一条热门帖子:

“你是一个自回归语言模型,已经通过指令调优和 RLHF 进行了微调。你谨慎地提供准确细致、符合事实、考虑周全的回答,并且十分擅长推理。如果你认为可能不存在正确答案,你会照实说。”

2.将 AI 工具转变为专家:防止不准确输出的一个方法是将 AI 工具转变为出错几率较低的专家。许多用户和 AI 服务提供商(包括一些 GitHub 开发人员)都在创建提示,命令 AI 工具像专家一样行事。值得注意的是,最出色的专家角色往往最能遵循广为接受的优秀实践。如果命令过于笼统,AI 工具可能会出现“幻觉”,给出不准确或不真实的输出内容。例如,只说“你是一名出色的职业顾问”是不够的。提示应包含职业顾问通常需要遵循的优秀实践的相关指导。另一种有效的做法是,使用您已知道答案的任务对一组提示进行测试。这将帮助您确定从何处着手来优化专家角色提示。有时,甚至可以根据任务类型为一个专家角色提示开发多个迭代。GitHub 开发人员列出了他们用于将 AI 转变为专家助理的 15 组提示。还有其他人也给出了一些提示,但 GitHub 开发人员的列表尤其全面。

AI 专家提示:

1. 职业顾问

2. 特定职位的面试官

3. 英语发音助手

4. 广告商

5. 社交媒体经理

6. 面向学生的 AI 写作导师

7. 会计师

8. Web 设计顾问

9. 充当 UX/UI 开发人员

10. IT 架构师

11. 网络安全专家

12. 机器学习工程师

13. IT 专家

14. Excel 公式生成工具

15. 私人厨师

3.添加“事前”或“事后”提示:可以添加调整 AI 输出风格的提示。内容也许需要采用更加正式或非正式的风格,或者内容面向受过高等教育的受众或具有高中教育水平的受众。如果提示是在生成输出后添加的,则称为“事后提示”。Google DeepMind 最近的一项研究项目表明,同时采用出色的事前和事后提示可以生成理想的结果。

包含 AI 图像的橙色折叠物

4.使用提示消除偏见:如果 LLM 的训练数据不适当,其输出可能会反映出互联网上散布仇恨内容的数百万人的偏见。Anthropic AI 实验室最近的一项研究表明,或许可以通过从人类反馈中强化学习 (RLHF) 来训练 LLM,以生成不包含(或较少包含)种族主义、年龄歧视、厌女等内容的输出。在 AI 的构成中添加指令,以便在生成内容时考虑团队决策所遵循的一般伦理原则。在这个过程中,需要在提示中添加一行内容,防止 LLM 依赖有害的刻板印象或思想体系。事实证明,在某些情况下,AI 工具已经开始“积极辨别”其输出中的内容,效果甚至可能会超出预期。

AI 自查自纠的局限性

也许 AI 自查自纠措施实力不俗,但研究也表明它仍然存在局限性。Google DeepMind 的同一项研究发现,实施自查自纠措施后,LLM 的表现有时其实更差。在不削弱性能的情况下,自查自纠并非始终对每组 AI 提示有效,特别是在不使用外部来源(计算器、代码执行工具、知识库等)的情况下。为了获得理想结果,自查自纠措施需要访问内置基本事实的基准数据集。有了这些参考,AI 工具将知道何时停止其推理过程,从而避免过度纠正其输出内容。当然,研究人员指出,有些任务过于复杂,无法为 AI 工具提供这些类型的参考。

同一项研究还发现,使用涉及多个代理的 LLM 应用程序时,会遇到 AI 自查自纠的另一个局限性。这些措施会要求 LLM 作为不同的“代理”或行动者执行多项任务。

示例:

LLM 作为一个代理生成代码,然后还作为另一个代理检查代码。

LLM 会展开辩论,每一方都有一个代理。

这时便会出现问题,因为多个代理使用多数投票原则来决定哪个答案是正确的,从而产生一种回声室效应或“自我一致性”,而不是真正的准确性。

一系列按钮和图表

人工介入的价值

AI 自查自纠的局限性强调了人工介入的重要性。AI 工具可以提高翻译效率,但在某些时候通常需要人工干预。也许必须由相关人员来开发有效的成组提示、检查初始样本或者在最后审核输出,才能准确完成任务。自查自纠措施或许能在整个流程中提供协助,但无法取代人工介入。

为此,与 AI 咨询专家合作至关重要,例如 Lionbridge 的咨询专家,他们可以帮助弥合 AI 信任鸿沟。他们应该做到以下事项:

  • 尽可能降低不牢靠或低质量内容/输出的风险

  • 确保数据安全,使其免受网络攻击或任何攻击形式的侵害

  • 发挥创造力,帮助开发新颖的、有吸引力的原创内容或输出

  • 检查并纠正内容以确保准确性,特别是处理需要强化教育或大量专业知识的复杂材料时

  • 从不试图向您推销不必要的技术、解决方案或订阅内容

  • 在整个流程中进行共享,并征求您的意见、反馈以及询问是否需要定制服务

联系我们

想要了解如何利用 AI 来自动执行内容创作网站内容优化或提供其他语言服务?Lionbridge 的 AI 专家专业团队随时待命。敬请联系我们。

请输入企业邮箱地址
勾选以下复选框即表示,您同意接收我们的营销电子邮件。您将收到 Lionbridge 提供的有关语言服务前沿思想、最佳实践和市场趋势的信息。

如需取消订阅以及了解我们如何处理您的个人数据,请参阅我们的隐私政策

linkedin sharing button

作者
Samantha Keefe 和 Thomas Gaitley,恢复能力总监
  • #technology
  • #translation_localization
  • #ai
  • #generative-ai
  • #blog_posts