A person’s arms reaching toward circular geometric shapes

生成式 AI 模型在一项机器翻译评估中的表现超越了神经网络机器翻译引擎

这是否标志着神经网络机器翻译范式开始走向终结？

上次更新时间：2023 年 5 月 12 日，9:13

在我们进行的机器翻译 (MT) 比较评估中，生成式人工智能 (AI) 模型的翻译质量首次超越了神经网络机器翻译 (NMT) 引擎。具体而言，大型语言模型 (LLM) GPT-4 针对英语-中文语言对的翻译质量比 Yandex 略胜一筹。

因此，有必要探究这一进展所带来的影响。

如果该迹象表明神经网络机器翻译范式将走向终结或发生巨大变革，那么机器翻译的交付成果将发生转变：包括翻译质量跃升、接受度提高以及能够推出更多内容。

MT 提供商必须站在技术变革的前沿，考虑大型语言模型对其现有 MT 引擎的影响，以便充分利用科技进步提供服务。MT 买家必须及时掌握技术发展的最新情况，以此进行明智的投资，可能要采用一些基于 LLM 的技术，而不仅仅局限于神经网络 MT 服务。

联系我们

LLM 超越了神经网络 MT 引擎：这重要吗？

尽管此次评估得出了一些突破性结果，但客观地来看，评估对象仅包括一个模型，而且仅涉及一个语言对。相较于五款 NMT 引擎，LLM 的表现仅在一项 MT 评估（多参照译文评估）中优于其中一款 NMT 引擎。这样来看，这一评估结果还有那么重要吗？当然很重要！

在上述前提下，这一评估结果似乎无关紧要，但这是 NMT 引擎出现以来，首次表现逊色于另一种 MT 方案，因此值得关注。而且，打败 NMT 引擎的是多用途语言自动生成模型，这种“非 MT”方案并非专为机器翻译而研发，GPT-4 大型语言模型却“歪打正着”超越了 NMT 引擎，自然引起了业内关注。

ChatGPT-4 出色的翻译表现对神经网络机器翻译范式有什么影响？

自 2022 年 2 月起，我们就公开怀疑 MT 范式可能在不远的未来发生转变。请参阅我们的 Machine Translation Tracker 评论，详细了解我们在这段时间对该主题的看法。最新的比较结果也证明，重大变革即将来临。

当然，我们不能太快下结论，“LLM 将取代 NMT 引擎”的这种说法还为时过早，更不要说变革还尚未发生。我们需要花更多时间来评估更多的数据。在评估过程中，有太多因素需要考虑；而且 LLM 技术在成为企业可行的翻译解决方案之前，需要提升的空间还很大。

由于 NMT 和 LLM 技术有许多共同点，范式变革可能从 NMT 引擎采用一些 LLM 方案开始。

对于三种语言对，NMT 和 LLM 的翻译质量相比如何？

我们选择了五大神经网络机器翻译引擎和一些 GPT 模型，比较它们针对三种语言对的翻译质量。

我们利用英语-中文 (EN-ZH)、英语-西班牙语 (EN-ES) 和英语-德语 (EN-DE) 语言对的多份参照译文，根据编辑距离倒数计算出了质量水平。

编辑距离指的是人工译员为确保编辑后的译文能达到人工翻译质量而对 MT 译文必须做出的改动数量。为了评估效果，我们将未经编辑的 MT 译文与 10 份不同的人工翻译（多份参照译文）进行对比。编辑距离倒数值越高，翻译质量就越好。

图 1 表明 NMT 引擎和 LLM 之间的编辑距离倒数差异不大，这说明它们的翻译质量不分伯仲。但值得注意的是，大型语言模型 GPT-4 对于英语-中文语言对的翻译质量比 Yandex NMT 略胜一筹。

GPT 模型和主要神经网络 MT 引擎自动生成译文的质量比较（针对英语-中文语言对）

图 2 和图 3 分别展示了这些引擎和模型在英语-西班牙语和英语-德语语言对方面的翻译质量。迄今为止，对于这两种语言对，所有神经网络 MT 引擎的翻译质量均优于 LLM。

不出所料，随着 GPT 模型不断发展，其 MT 翻译质量越来越高：GPT-4 的翻译质量优于 ChatGPT 和 GPT-3。

GPT 模型和主要神经网络 MT 引擎自动生成译文的质量比较（针对英语-西班牙语语言对）

GPT 模型和主要神经网络 MT 引擎自动生成译文的质量比较（针对英语-德语语言对）

我可以放心地将大型语言模型用于专业领域的翻译吗？

生成式 AI 仍处于早期发展阶段，尚未完全成熟，难免会在某些关键领域出现短板。我们的 ChatGPT 和本地化白皮书重点介绍了该技术为何所言非实、一无所知，而且数学不好。与其准备向其倾斜，不如先放缓脚步。

这些不足应该会让企业认真考虑一下。

不确定性

我们的评估表明，GPT 译文质量充满不确定性。换句话说，每次的运行结果不稳定。图 2 和图 3 展示了这种现象，从中可以看到，运行第一次和第二次的翻译质量有所不同。

我们预料到了这种结果。但在权衡是否要使用 LLM 进行专业翻译时，这种不确定性因素必须纳入考虑，因为质量的稳定性至关重要。

公司在翻译内容时，几乎容不得不确定性。目前，生成式 AI MT 译文的确定性还达不到标准。在专业 MT 和 LLM 的其他专业应用中，质量应该具备稳定性。

完全确定的结果与生成式模型的特性相违背，该模型理应展现出一定的创造性或不确定性。这是可以接受的，甚至更适合某些场景，但不适用于所有情况。控制不确定性的机制（包括使用“温度”设置控制 LLM“创造性”）不可或缺。

用于控制生成式模型不确定性的理想方法尚不明了。或许，用户可以通过某些预先确定的提示和针对特定任务的一组设置来解决此问题，但一个更具体的解决方案还是必不可少的。

良好的业务应用程序需要具备稳定性。

API 不稳定性

LLM 当前的另一个问题是应用程序编程接口 (API) 不稳定。

大多数生成式 AI 应用程序仍处于早期部署阶段。巨大的需求推动了 API 的大规模使用。这些因素综合在一起，便导致了各种问题。这种情况显而易见，因为与其他更为成熟的技术相比，人们在使用这些应用程序时遇到的问题更多。

错误

我们在 LLM MT 译文中发现了准确性问题，NMT 译文没有出现这种情况，即使出现，比例也很小。

准确性问题包括无中生有（包括造词或增译）或在数、性或人称方面的不一致问题。（比如在有“性”这一语法范畴的语言中，存在形容词、限定词与名词不配套的情况。）

如表 1 所示，LLM 在西班牙语目标语言翻译中使用了“marketeros”，这个词很少见，而且偏口语化。准确的翻译用词应该是“responsables del marketing”。LLM 在德语和中文目标语言的翻译中也出现过类似错误。根据错误的严重程度，品牌可能会面临声誉、财务或法律方面的问题，因此检查 MT 重大错误尤为重要。

表 1. LLM MT 译文中的“造词”或“增译”示例：

英语-西班牙语 (EN-ES)
英语-德语 (EN-DE)
英语-中文 (EN-ZH)

源文	As marketers, we all aspire to surprise, delight, and connect to a global and thriving culture.
译文	Como marketeros, todos aspiramos a sorprender, deleitar y conectarnos con una cultura global y próspera.
说明	应为：“responsables del marketing”

源文	Tax on interest, discounts & other items of gross income paid to finance companies & other financial intermediaries not performing quasi-banking functions
译文	Steuer auf Zinsen, Rabatte und andere Posten des Bruttoeinkommens, die an Finanzunternehmen und andere Finanzintermediäre gezahlt werden, die keine quasibankähnlichen Funktionen ausüben.
说明	应为：“Vermittler”和“bankähnlichen”

源文	See how Honda used Twitter's Instant Win feature for a good cause while also earning lifts in purchase intent and brand favorability.
译文	看看本田如何利用推特的即时赢取功能为一个好事业赢得提升，同时也获得购买意向和品牌可喜度的提升。
说明	应为：“公益事业”和“好感度”

表 1. LLM MT 译文中的“造词”或“增译”示例：
语言	源文	译文	说明
英语-西班牙语 (EN-ES)	As marketers, we all aspire to surprise, delight, and connect to a global and thriving culture.	Como marketeros, todos aspiramos a sorprender, deleitar y conectarnos con una cultura global y próspera.	应为：“responsables del marketing”
英语-德语 (EN-DE)	Tax on interest, discounts & other items of gross income paid to finance companies & other financial intermediaries not performing quasi-banking functions	Steuer auf Zinsen, Rabatte und andere Posten des Bruttoeinkommens, die an Finanzunternehmen und andere Finanzintermediäre gezahlt werden, die keine quasibankähnlichen Funktionen ausüben.	应为：“Vermittler”和“bankähnlichen”
英语-中文 (EN-ZH)	See how Honda used Twitter's Instant Win feature for a good cause while also earning lifts in purchase intent and brand favorability.	看看本田如何利用推特的即时赢取功能为一个好事业赢得提升，同时也获得购买意向和品牌可喜度的提升。	应为：“公益事业”和“好感度”

如表 2 所示，LLM 所有三种目标语言译文中均出现了一致性或字符错误。例如，它使用了西班牙语“other”的阴性词，应该使用阳性词。这些错误类型可能会削弱消费者对品牌的信心。

表 2. 一致性和字符错误示例：

英语-西班牙语 (EN-ES)
英语-德语 (EN-DE)
英语-中文 (EN-ZH)

类别	一致性错误
源文	The centre for urban culture is one of the best concert venues in the city and regularly hosts the most famous performers of indie rock, electronic music, metal and other genres of modern urban music.
译文	El centro de cultura urbana es uno de los mejores lugares de conciertos de la ciudad y regularmente acoge a los artistas más famosos del rock independiente, la música electrónica, el metal y otras géneros de música urbana moderna.
说明	应为阳性（“otros”）

类别	一致性错误
源文	Do not use harsh chemicals, cleaning solvents, or strong detergents to clean the programmer and wand.
译文	Verwenden Sie keine aggressiven Chemikalien, Reinigungslösungsmittel oder starken Reinigern, um den Programmierer und den Stab zu reinigen.
说明	应为不定宾格（“Reiniger”）

类别	书写方式错误
源文	Handle the fiber with care as damage may occur if struck or bent sharply.
译文	小心處理纖維，因為如果受到撞擊或急劇彎曲可能會損壞。
说明	繁体中文字符

表 2. 一致性和字符错误示例：
类别	语言	源文	译文	说明
一致性错误	英语-西班牙语 (EN-ES)	The centre for urban culture is one of the best concert venues in the city and regularly hosts the most famous performers of indie rock, electronic music, metal and other genres of modern urban music.	El centro de cultura urbana es uno de los mejores lugares de conciertos de la ciudad y regularmente acoge a los artistas más famosos del rock independiente, la música electrónica, el metal y otras géneros de música urbana moderna.	应为阳性（“otros”）
一致性错误	英语-德语 (EN-DE)	Do not use harsh chemicals, cleaning solvents, or strong detergents to clean the programmer and wand.	Verwenden Sie keine aggressiven Chemikalien, Reinigungslösungsmittel oder starken Reinigern, um den Programmierer und den Stab zu reinigen.	应为不定宾格（“Reiniger”）
书写方式错误	英语-中文 (EN-ZH)	Handle the fiber with care as damage may occur if struck or bent sharply.	小心處理纖維，因為如果受到撞擊或急劇彎曲可能會損壞。	繁体中文字符

结论：ChatGPT-4 在某语言对方面的翻译表现超过了 Yandex，这是否代表 NMT 范式开始走向终结？

这不是走向终结的开始，如前所述，NMT 已经发展完全的迹象以及 MT 范式转变的可能性已经存在了一段时间了。NMT 范式正在走向终结。

图 4 利用编辑距离倒数值衡量了 2018 年 5 月至 2022 年 12 月期间，五大 NMT 引擎在德语、西班牙语、俄语和中文翻译中的质量水平。我们发现，五大 NMT 引擎的翻译质量开始趋平，提升幅度不大，由此不禁怀疑现阶段机器翻译范式的主导地位是否即将结束。

我们发现，在 2022 年 NMT 翻译质量的提升微不足道，由此推断出，NMT 达到了发展平台期。这跟 MT 的上一个重要范式，即统计机器翻译范式，具有类似的发展轨迹。Lionbridge Machine Translation Tracker 通过在业内长期衡量主流 MT 引擎的表现，提供了有关五个 NMT 引擎表现的更多信息。

最近由生成式 AI 模型驱动的翻译质量提升会进一步推动 NMT 范式的终结，但众所周知，生成式 AI 模型仍有很大的发展空间。

要强调一点，生成式 AI 应用程序仍处于早期部署阶段。除了我们上述提到的，还有其他问题必须得到解决，或逐步解决。我们已经看到，生成式 AI 应用程序在以惊人的速度得到改进。在我们最近的一次 ChatGPT-4 测试中，上述部分问题已解决。LLM 令人难以置信的优化速度印证了它将成为下一代机器翻译范式的观点。

神经网络 MT 提供商很有可能将部分 LLM 技术集成至 NMT 架构，不会任由 LLM 发展而取代当前的范式。MT 行业从基于规则的 MT (RBMT) 到统计 MT (SMT) 的变革就与此类似，有过两种技术结合使用的时期。

生成式 AI 的翻译表现是否给翻译人员留下了深刻印象？

翻译人员如何看待生成式 AI？鉴于该技术目前存在的不足，评估人员通过比较神经网络 MT 引擎和 LLM 二者的翻译表现，仍认为神经网络 MT 译文优于 LLM。评估人员都一致地表达了上述观点，包括中文译文评估人员在内。

生成式 AI 毫无疑问将继续发展，我们也会帮助您跟上日新月异的技术发展速度。

联系我们

阅读我们的博客，详细了解我们如何看待 ChatGPT 的翻译表现和本地化的未来。

如果您想了解 Lionbridge 如何帮助您有效利用机器翻译，请立即联系我们。

作者

Rafa Moral 和 Janette Mandell

#translation_localization
#ai
#generative-ai
#blog_posts

我们的服务范围

行业

资源

公司简介

生成式 AI 模型在一项机器翻译评估中的表现超越了神经网络机器翻译引擎

LLM 超越了神经网络 MT 引擎：这重要吗？

ChatGPT-4 出色的翻译表现对神经网络机器翻译范式有什么影响？

对于三种语言对，NMT 和 LLM 的翻译质量相比如何？

我可以放心地将大型语言模型用于专业领域的翻译吗？

不确定性

API 不稳定性

错误

表 1. LLM MT 译文中的“造词”或“增译”示例：

表 2. 一致性和字符错误示例：

结论：ChatGPT-4 在某语言对方面的翻译表现超过了 Yandex，这是否代表 NMT 范式开始走向终结？

生成式 AI 的翻译表现是否给翻译人员留下了深刻印象？

联系我们

行业