Lionbridge 的 TRUST 框架
建立对 AI 应用的信任
选择语言:
机器翻译 (MT) 的未来前景如何?Lionbridge 日复一日地思考这一问题。
2022 年,主流机器翻译引擎(Google NMT、Bing NMT、Amazon、DeepL 和 Yandex)在翻译质量方面几乎没有取得进展。您可以查看我们的 Machine Translation Tracker(长期追踪业内 MT 引擎的工具),亲自了解一下。这些乏善可陈的结果令我们不禁提出一些有关当前神经网络机器翻译 (NMT) 范式的问题。
使用海量内容(包括多模态和语言多元化数据)进行训练的大型语言模型 (LLM) 十有八九与未来的范式有关。我们之所以会这样想,是因为我们将 ChatGPT 的翻译表现与 MT 引擎的翻译表现进行了对比,得到了突破性的分析结果。
ChatGPT 是 OpenAI LLM GPT-3 系列的新版本,翻译表现不如专业 MT 引擎,但相差不大。ChatGPT 的表现非常出色,无疑会对机器翻译的未来产生影响。
当前的 MT 引擎发展趋势给人一种似曾相识的感觉。
在统计机器翻译时代处于尾声阶段时,人们发现这类机器翻译译文的质量基本不再提升。另外,不同的统计 MT 引擎的质量开始趋于一致(统计 MT 后来被 NMT 取而代之)。而当下,类似情况正在发生。
NMT 可能不会立即被新一代引擎取代,可如果我们相信加速回报定律,以及技术进步以指数方式发展,再考虑到大环境 — 基于规则的 MT 盛行了 30 年,但统计 MT 只风靡了十年,而如今,NMT 也已诞生六年了,这么看来,新范式的面世可能也不是遥不可及。
LLM 在 2022 年取得了重大进展,这为该技术在 2023 年踏足 MT 领域做好了准备。
LLM 属于通用模型,接受过执行诸多任务的训练。不过,到 2022 年年底,我们发现一些专门的或经过微调的 LLM 在一些特定领域取得了重要进展。这些进展使该技术能够通过一些额外的训练来执行翻译任务。
以 ChatGPT 为例。这一新模型经过 OpenAI 的微调,能够进行问答对话,同时仍能完成通用 LLM 可执行的一切任务。
如果 LLM 针对翻译进行了微调,翻译方面可能会出现类似情况。
如果使用更均衡的语言语料库训练机器,则更有可能使用 LLM 进行翻译。
GPT-3 的训练语料库中英语语料库占比 93%,而所有其他语言语料库仅占 7%。如果 GPT-4 包含更多非英语语言的语料库,LLM 或许就能够更好地处理语言多元化问题,进而提供更出色的翻译。这个语言更均衡的语料库可充当基石,在此基础上构建经过微调的模型,专门用于处理翻译。
关于这个基于 LLM 的假设性新 MT 范式,另一个有趣的方面是多模态趋势。我们可能会使用语言数据和其他训练数据(例如图像和视频)来训练 LLM。这类训练可以加深 LLM 对世界的认识,从而提供更出色的翻译。
为了评估 LLM 取代 NMT 范式的前景,我们将 ChatGPT 的翻译表现和我们目前进行 MT 质量追踪的五个主要 MT 引擎的翻译表现进行了对比。
不出所料,专业 NMT 引擎的翻译表现比 ChatGPT 更好。但令人惊讶的是,ChatGPT 交出的答卷同样让人惊叹。如图 1 所示,ChatGPT 的表现几乎可以媲美专业引擎。
我们使用英语-西班牙语语言对的多份参照译文,根据编辑距离倒数算出了引擎质量水平。编辑距离指的是人工译员为确保编辑后的译文能达到人工翻译质量而必须做出的改动数量。为了评估效果,我们将未经编辑的 MT 译文与 10 份不同的人工翻译(多份参照译文)进行对比。编辑距离倒数值越高,翻译质量就越好。
图 1. 使用英语-西班牙语语言对的多份参照译文,根据编辑距离倒数比较 ChatGPT 和主流机器翻译引擎自动化翻译的质量。
因为该通用模型接受的训练是执行诸多不同自然语言处理 (NLP) 任务,而不是像 MT 引擎一样,针对单一 NLP 翻译任务接受训练,所以说这些比较分析结果令人赞叹。尽管 ChatGPT 没有专门针对翻译任务进行过训练,但其翻译表现大概能够达到 MT 引擎两三年前的译文质量水平。
阅读我们的博客,详细了解 ChatGTP 和本地化。
公众对 LLM 大加关注,科技公司也对这项技术进行重大投资,这促进了 LLM 的发展。鉴于此,我们可能很快就会知道 ChatGPT 是否会取代 MT 引擎,或 MT 是否会开始采用 LLM 这一新范式。
MT 可能会将 LLM 作为基础,然后根据机器翻译的特别要求对这项技术进行微调。这与 OpenAI 和其他 LLM 公司的做法类似,这些公司会针对特定使用情形(比如令机器有可能以对话方式与人类交流)完善其通用模型。专业训练可以让机器更准确地完成特定任务。
大型语言"通用"模型有一项优势:它们能完成许多不同的任务,并且大多数任务执行得非常不错。举例来说,另一种通用智能模型 DeepMind GATO 已经针对 600 多种任务进行了测试,并且在完成其中 400 种任务时取得了“目前最佳水平”(SOTA) 结果。
两条发展线路会继续存在 — 一条是通用模型,比如 GPT、Megatron 和 GATO;另一条是基于这些通用模型,为达到特定目的而打造的专业模型。
通用模型对于促进通用人工智能 (AGI) 有重要意义。长期来说,这类模型甚至可能会推动影响更加深远的技术进步。而专业模型在短期内则将实际用于特定领域。关于 LLM,有一点值得一提 — 这两条线路可以齐头并进。
随着当前神经网络机器翻译技术范式达到极限,一种占主导地位的新型机器翻译技术范式(很可能以 LLM 为基础)已然兴起,我们预计 MT 领域会发生一些变化。新范式产生的大多数影响会使各公司大大受益,不过寻求人工翻译的公司预计会面临更多挑战。
预期影响如下:
随着技术取得进步,解决了长期存在的问题(比如,机器翻译正式语体和非正式语体,以及其他与语气相关的质量问题),机器翻译质量将实现巨大飞跃。LLM 甚至可以解决 MT 引擎的重大问题:缺乏对世界的认识。通过多模态训练,就有可能做到这一点。
技术专家不仅使用大量文本训练新型 LLM,还会使用图像和视频。经过此类训练,LLM 能够获取更多相关知识,帮助机器解读文本的含义。
各公司将能够更快地创作更多内容,内容创作速度也将超过能够翻译这些内容的译员人数增长速度。即使 MT 得到改进,译员的工作效率也有所提高,翻译团队满足翻译需求仍会比较吃力。
随着新技术范式的推出和机器翻译质量的提高,人们对翻译服务的需求将继续增长,从而提高机器翻译在更多情况和使用情形中的接受度。
随着 MT 质量的提高,以及对打造更加个性化和更具针对性的客户体验的需求,各公司将会更频繁地使用 MT 改善全球客户的数字体验,并与客户建立更牢固的关系。
技术公司对 LLM 技术表现出很浓厚的兴趣。Microsoft 向 OpenAI 投资 100 亿美元。Nvidia、Google 和其他公司也在大举投资 LLM 和人工智能 (AI) 技术。
未来浪潮涌动之处,就是我们心之向往之地。我们会持续评估 LLM,敬请继续关注,以便您及时了解这场激动人心的演化之旅的新动向。
如果您想了解 Lionbridge 如何帮助您充分利用机器翻译,请立即联系我们。