Lionbridge 的 TRUST 框架
建立对 AI 应用的信任
选择语言:
什么是生成式人工智能 (GenAI) 和大型语言模型 (LLM) 技术?ChatGPT 等 GenAI 和 LLM 将为翻译和本地化带来怎样的颠覆性变化?如何利用 LLM 升级全球化内容工作流程?
在 GenAI 和 LLM 网络研讨会系列第一期中,Lionbridge 产品和开发团队主管 Vincent Henderson 针对以上问题给出了答案,并进行了更深入的探讨。
如果您错过了这期网络研讨会,可以点播回放视频。
如果无暇观看,可以先了解一下 Vincent 在网络研讨会上探讨的部分主题。
GenAI 和 LLM 都是人工智能 (AI) 引擎,这些引擎以互联网语料库为基础,学会了以人类的方式创作文本。经过训练后,这些引擎能够根据给定输入文本生成最符合当前语境的下文。
这些引擎以新型 AI 为技术基础,通过调用从海量数据中捕获的全部信息来确定最合理的下文输出内容。
这一能力看似微不足道,实际过程却相当复杂。LLM 能够将输入文本与全局语料库进行整体比对,识别出合适的上下文并生成输出文本。它可以识别提示文本和训练语料库中最重要的成分,以及需要特别注意的成分。
最终生成堪比人类创作的文本。这种技术的神奇之处就在于,它彷佛能够看透人类意图,并像人类一样思考和行动。
LLM 在经过学习后可以拥有以下几种能力。以 ChatGPT 为例:
要理解 ChatGPT 等 LLM 利好翻译与本地化领域的深层缘由,我们需要先分析一下神经网络机器翻译 (NMT) 自动化流程中存在的一些挑战。
如今,很多企业都会依赖各种机器翻译 (MT) 引擎。这些引擎就是高度专业化的 LLM,经过优化后,它们能够识别一串字词并确定相应的译文。如果通用的 MT 引擎无法生成符合预期的结果,企业可以使用数以万计的相关数据对引擎训练进行调整,进而提升输出质量。
这项工作对于使用 MT 引擎的企业而言耗资巨大。此外,每当实施新计划(如发布新产品或进行市场营销)时,企业还必须重新衡量再次训练引擎的性价比。
与之相反,LLM 引擎已经提前掌握了足量信息,因此只需要通过少量的示例就能够学习到企业期望的结果,并将这些学习结果进一步应用到新的工作中。如此一来,企业不需要提供过于复杂的上下文感知提示,也不需要使用大量数据实施针对具体任务的模型训练,就可以得到期望的译文。
不过,在撰写本文之际,具备以上能力的 LLM 面临着繁重的需求压力,尚无法满足产业级本地化所涉及的内容规模需求。这一现状未来会有所改观,但时间尚不确定。
LLM 的原始翻译表现与 MT 引擎相比如何?Lionbridge 针对英语-中文、英语-西班牙语和英语-德语语言对,将主流 MT 引擎的译文质量与 GPT 模型进行了比较。
总体而言,GPT 的表现不及当前的主流 MT 引擎,而 LLM 的表现接近当前主流 MT 引擎。以图 1 为例,GPT-4 在英语-中文语言对上的表现比 Yandex MT 引擎略胜一筹。
如需了解不同领域和语言的其他比较结果,请访问 Lionbridge Machine Translation Tracker,该工具长期衡量自动化翻译的整体表现。
在没有具体指令的情况下,诸如 GPT 等 LLM 生成的译文相对于主流 MT 引擎而言更具有本土色彩。这种处理方式可能与专业译者的处理方式不太一致,也可能被视为错译。此外,GPT 有时还会自创新词或新的表达,这些是专业译者避之不及的做法。
要让 LLM 使用特定词汇很简单,只需要发出指令就可以;而让 MT 引擎吸收词汇就复杂得多,要么对 MT 引擎进行训练,要么在引擎基础上构建上层结构,才能将词汇注入结果或源文本。这些做法往往会引发词形变化或一致性方面的问题。
GPT 的语言感知能力非常强,很少出现前后不一致等语言方面的错误,而且往往能够根据指令进行自我纠正。
LLM 的用途非常广泛,既可以用于改进目标文本,也可以用于改进源文本。在对频率、体量和长度进行量化分析的基础上,它还能够进一步进行质量评估和自动化改进。只需要对 LLM 发出特定的指令,就可以得到期望的结果。
ChatGPT 的用途:
LLM 可以让内容变得更易于阅读,扩大受众范围。改进源文本和减少字数也可以降低本地化成本。
您可以像要求专业译者一样,要求 LLM 对您的译文进行译后编辑。LLM 在译后编辑方面表现出彩吗?一项分析发现,LLM 可以大幅缩短从一个句子的原始 MT 译文到最终版本译文所需的工作量,也就是“编辑距离”,该指标从 48% 缩短到 32%。此外,它还能够发现多余空格等错误,提供选词建议以及通过改写来改进目标文本。
GenAI 将为多语言内容工作流程带来翻天覆地的变化,而 Lionbridge 可以提供与这些变化相关联的服务。
对本地化行业而言,LLM 的多语言内容生成能力可以说是自引入翻译记忆库 (TM) 以来最具颠覆性的因素。
LLM 如何从无到有生成多语言内容?输入信息,然后要求它在此基础上生成多语言内容即可。从无到有,就这么简单。
借助 LLM,企业可以根据已有的数据生成产品简介、推文和其他材料,完全不用担心 LLM 存在所言非实或输出内容毫无意义的情况,也就是出现所谓的“幻觉”。
以往的全球化内容工作流程一分为二,分别是本土内容生产和全球内容生产。有了 LLM,企业将不再需要先让撰稿人用源语言撰写内容,然后再开始本地化工作流程,而是可以按需生成多语言衍生内容,然后再让各语言(包括本土语言)的译后编辑人员对文本进行译后编辑。
Lionbridge 的译者遍布世界各地,可以游刃有余地针对多语言生成内容提供多语言译后编辑服务。
使用 LLM 生成多语言内容时需要对提示性语言进行工程设计,这一过程不但耗时,而且常常需要反复摸索。帮助企业构建合适的提示性语言是本地化行业的新兴服务类型,也是 Lionbridge 可以提供支持的领域。
Lionbridge 可以通过后端开发来简化 AI 的使用,并帮助客户策划用作示例和提示性语言的内容类型,从而应用到客户自行运营的多语言 GenAI 方案中。
GPT 可以修改语言资产,如 TM 和风格规则。
Lionbridge 曾利用 GPT-4 对整个法语 TM 进行口语化处理,以低于以往的服务价格让语气和风格更贴近客户的要求。
此类服务关系到使用 LLM 降低译后编辑的难度、成本并提高译后编辑速度,从而让整个翻译工作流程更加有效且更具成本效益。
通过本地化工作流程的改进,让“译达万物”的概念更加深入人心。
LLM 将为本地化领域带来颠覆性的变化。久而久之,本地化的工作流程将实现扁平化。
企业的本土运营流程和全球运营流程将实现统一,从而能够确定内容目标、规划内容并以多种语言即刻生成内容。
新技术的诞生往往会引发大众对岗位消亡的恐惧。然而,Lionbridge 并不担心 LLM 会让语言服务提供商退出舞台或者让大众对译者的需求烟消云散。
即使企业使用 LLM 生成了多语内容,也仍然需要领域专家来审校机器翻译输出,这一过程就叫做“机器翻译的译后编辑”。在未来,这一叫法可能会有所改变。
“整个语言行业必须直面 LLM 带来的挑战。我们正处在LLM 技术用例爆炸式增长的早期阶段,这是非常值得期待的。”
— Vincent Henderson,Lionbridge 语言服务产品主管