Lionbridge 的 TRUST 框架
建立对 AI 应用的信任
选择语言:
我们一直认为,MT 范式迎来颠覆性变革的时机已然成熟。我们的专家评论将与您道破其中缘由。
我们的自动化翻译专家针对诸多话题发表了见解,话题包括:
您对 MT 和 GenAI 了解得越深,就越能有选择性地部署这些工具来满足需求。您可充分利用各种范式的优势,最终提高翻译效率、增加内容产出并节约成本。
生成式人工智能 (GenAI)/大型语言模型 (LLM) 技术大行其道、前景可期,Lionbridge 的机器翻译 (MT) Quality Tracker 报告也因此进行了升级。 今后,该报告不仅会发布 GPT-3.5、Davinci 和神经网络 MT (NMT) 引擎的表现,还将为您介绍 GPT-4 的译文结果。
我们发现 GPT-4 存在一些问题,比如性能缓慢,出于多种原因而无法提供译文,译文水平参差不齐(有时会漏译,有时又不会)。
在我们的 MT 测试中,GPT-4 无法翻译某个句子。
调查之后我们发现,特定语境中的一个具有性暗示的词语导致了这个问题。 不过要声明一点,测试中的这个句子十分平常,绝无任何色情淫秽意味。 然而,这个词语还是触发了 GPT-4 的色情内容过滤机制,AI 在随后进行审核时删除了该句子的译文。 该结果十分出人意外,原因有二:
在正常情况下单独使用该词绝无问题。
这个句子的具体语境也绝不会引发色情方面的联想。
这一发现让我们得出一个结论:GPT-4 的部分过滤机制可能只是简单地基于一份禁用词列表,其中还包括模棱两可的词语。 这种方法问题很大,因为这很可能会矫枉过正,连正常内容都一并过滤掉,而这对于专业翻译来说后果十分严重。
由于早期的 MT 技术(比如神经网络 MT 引擎)不存在这种内容过滤问题,因此这一问题是 LLM 技术的缺陷。
这一缺陷将对实际应用造成影响。 例如,如果需要翻译妇科或性教育方面的医学内容, 而 LLM 不翻译其中的一些内容,则会让人倍感困扰。
有趣的是,只有将这一句子译为中文时才会出现问题,译为其他语言都无碍。 此结果表明,该过滤机制仅作用于 GPT-4 的输出内容, 只需关闭翻译任务的内容过滤器即可解决这一问题。
我们在为期五周的测试后发现,LLM 的 MT 译文质量良莠不齐十分严重,尤其是 GPT-4。
尽管 GenAI 有此结果并不奇怪,但其严重性远超预期 — 我们甚至使用了“温度和最高概率 (Top_p)”参数设置来降低译文创造力,提升译文确定性。 GPT 对于同一篇测试稿的译文次次不一致,甚至在测试一遍之后紧接着立刻再翻译,译文都完全不同。
前后两篇译文尽管不同,但都算正确。 尽管如此,这一点也同样需要加以管控,并且从前的 NMT 范式不会出现此情况。
我们开始感到,MT 范式可能从 NMT 改换到 LLM,这不仅仅是技术层面的变革,同时也要求人们转变观念: 我们可能需要准备好面对不确定性更高的译文,即使是针对同一篇源文且采用相同的参数,其结果与我们当前所熟知的自动化技术相比也将更加多变。
尽管可以使用一些机制和优秀实践来控制这种多变性,但我们仍要在一定程度上对其习以为常。
最后,当您浏览我们的图表时请注意,尽管 GPT-4 的编辑距离下降了,但这并不表示质量也下降了。 这仅仅说明 GPT 译文差异很大。 下个月,我们可能会看到该数据有所上升。 该领域仍有很大的发展和解读空间。
— Rafa Moral,Lionbridge 创新副总裁
浏览以下执行摘要,了解往期专家评论主题。
2023 年 3 月 — 大型语言模型 (LLM) 表现超越神经网络机器翻译 (MT) 引擎: 如何把握当下?
2023 年 2 月 — 改善机器翻译 (MT) 质量:MT 定制与 MT 训练
2023 年 1 月 — ChatGPT 与主流MT 引擎的翻译质量对比
2022 年 11 月 — Microsoft MT 的改善情况
2022 年 10 月 — MT 和语言正式性
2022 年 9 月 — 使用术语库提高 MT 质量
2022 年 8 月 — 克服 MT 中的重大错误
2022 年 7 月 — 语言的机器可翻译性排行榜
2022 年 6 月 — 准确分析 MT 质量
2022 年 5 月 — Amazon 和 Yandex 5 月表现
2022 年 4 月 — Yandex 4 月表现
2022 年 3 月 — 客制化 MT 比较评估
2022 年 2 月 — 神经网络机器翻译 (NMT) 的未来
2022 年 1 月 — 1 月 MT 引擎性能概览
2021 年 12 月 — Lionbridge 将 Yandex MT 纳入了 MT Quality Tracker 对比检查
2021 年 11 月 — Bing Translator 的表现取得进步
2021 年 10 月 — Amazon MT 引擎取得了哪些喜人进展
2021 年 9 月 — Amazon MT 质量更胜以往
2021 年 8 月 — 科技巨头及其 MT 引擎开发
获悉自动化翻译专家的深刻洞见。
生成式人工智能 (AI) 实现了重大的里程碑式发展: 在我们的一项比较评估中,它表现出色,超越了神经网络机器翻译 (MT) 引擎。 具体来说,大型语言模型 (LLM) GPT-4 的英语-中文语言对翻译质量比 Yandex 略胜一筹,如图 1 所示。
这是自神经网络 MT 问世以来,表现首次逊色于另一种 MT 方案,因此,这一发展值得关注。而且,打败神经网络 MT 引擎的是多用途语言自动生成模型,这种“非 MT”方案并非专为 MT 而研发。
为何您应关注这一事件? 如果您是 MT 提供商,那么您必须站在科技进步的前沿,考虑这对您现有 MT 服务的影响,以保持竞争力。 如果您是 MT 买家,那么您必须掌握这些技术发展的情况,以进行明智的 MT 投资,可能要采用一些基于 LLM 的技术,而不仅仅局限于神经网络 MT 服务。
值得注意的是,生成式 AI 仍处于早期发展阶段。 难免会在某些关键领域出现短板。 例如,针对同一份源文多次运行生成式 AI,生成的译文不固定;其应用程序编程接口 (API) 不稳定;出错率高于神经 MT 引擎。 欲使该技术走向成熟,必先攻克这些弊端。而我们已然看到,生成式 AI 应用程序在以惊人的速度得到改进。
LLM 令人难以置信的优化速度印证了它将成为下一代 MT 范式的观点。 我们预计,随着该范式的发展,神经网络 MT 提供商会将部分 LLM 技术集成至神经网络 MT 架构,也就是说将出现两种技术结合使用的时期。
阅读我们的博客文章,了解神经网络 MT 和 LLM 针对另外两个语言对的翻译质量比较,以及我们对以下问题的其他看法:这是否代表神经网络 MT 范式开始走向终结。
— Rafa Moral,Lionbridge 创新副总裁
通用机器翻译 (MT) 引擎往往可以为寻求翻译自动化的公司提供合格的译文。 但是,这些引擎提供的建议译文可能质量欠佳,在处理技术性内容或专业性很强的内容时则尤为如此。
想要改善机器翻译 (MT) 结果以达到特定目标的公司可以考虑两种选项: MT 定制和/或 MT 训练。 在自动翻译流程中运用其中一种方法或结合使用两种方法,可以获得更优质的译文。
但是,两种方法彼此不同,并且不可互相替代。 表 1 概述了 MT 定制和 MT 训练,以及在评估两种方法时需要考虑的因素。
MT 定制 | |
---|---|
概念和工作原理 | 利用词汇表和保留不译 (DNT) 清单对已有的机器翻译引擎进行调整,以提高机器生成的译文的准确性 |
用途 | 提高 MT 建议的质量,让译文更准确并减少后期编辑工作 |
具体优势 | 让公司能够遵循其品牌名称和术语,并实现地区化差异 |
使用风险 | 执行不当时,MT 可能会提出糟糕的建议,并对整体质量产生负面影响 |
适用情形 | 适合侧重技术和细节的内容以及任何有以下要求的内容: *准确翻译术语 *体现地区化差异,但您缺乏充足的数据进行 MT 训练 |
成功因素 | 经验丰富的 MT 专家,能够妥善管理输入和输出规范化规则、词汇表和 DNT |
成本考虑因素 | 更新 MT 引擎配置文件的一次性成本,以及随着时间推移维护词汇表产生的一些持续成本;考虑到潜在优势,成本相对便宜,并且通常低于 MT 训练成本 |
表 1. MT 定制与 MT 训练对比
MT 训练 | |
---|---|
概念和工作原理 | 通过使用来自语料库和翻译记忆库 (TM) 的大量双语数据来构建和训练 MT 引擎,以提高机器生成译文的准确性 |
用途 | 提高 MT 建议的质量,让译文更准确并减少后期编辑工作 |
具体优势 | 让公司能够获得特定的品牌形象、语气和风格,并实现地区化差异 |
使用风险 | 如果没有足够多的优质数据来训练引擎,MT 训练可能无法影响译文结果;如果经验不足的作者过度使用术语,MT 可能会生成糟糕的建议并对整体质量产生负面影响 |
适用情形 | 适合专业性很强的内容、营销和创意内容,以及任何有以下要求的内容: *呈现特定品牌形象、语气或风格 *体现地区差异,并且您有足够多的数据进行 MT 训练 |
成功因素 | 至少 1.5 万个独特句段以充分训练引擎 |
成本考虑因素 | 初次训练成本,如果监测 MT 性能后表明存在提升空间,可能随着时间推移需要考虑投入额外训练成本;考虑到潜在优势,在某些情况下,值得投资 MT 训练 |
表 1. MT 定制与 MT 训练对比
MT 定制 | MT 训练 | |
---|---|---|
概念和工作原理 | 利用词汇表和保留不译 (DNT) 清单对已有的机器翻译引擎进行调整,以提高机器生成的译文的准确性 | 通过使用来自语料库和翻译记忆库 (TM) 的大量双语数据来构建和训练 MT 引擎,以提高机器生成译文的准确性 |
用途 | 提高 MT 建议的质量,让译文更准确并减少后期编辑工作 | 提高 MT 建议的质量,让译文更准确并减少后期编辑工作 |
具体优势 | 让公司能够遵循其品牌名称和术语,并实现地区化差异 | 让公司能够获得特定的品牌形象、语气和风格,并实现地区化差异 |
使用风险 | 执行不当时,MT 可能会提出糟糕的建议,并对整体质量产生负面影响 | 如果没有足够多的优质数据来训练引擎,MT 训练可能无法影响译文结果;如果经验不足的作者过度使用术语,MT 可能会生成糟糕的建议并对整体质量产生负面影响 |
适用情形 | 适合侧重技术和细节的内容以及任何有以下要求的内容: *准确翻译术语 *体现地区化差异,但您缺乏充足的数据进行 MT 训练 |
适合专业性很强的内容、营销和创意内容,以及任何有以下要求的内容: *呈现特定品牌形象、语气或风格 *体现地区差异,并且您有足够多的数据进行 MT 训练 |
成功因素 | 经验丰富的 MT 专家,能够妥善管理输入和输出规范化规则、词汇表和 DNT | 至少 1.5 万个独特句段以充分训练引擎 |
成本考虑因素 | 更新 MT 引擎配置文件的一次性成本,以及随着时间推移维护词汇表产生的一些持续成本;考虑到潜在优势,成本相对便宜,并且通常低于 MT 训练成本 | 初次训练成本,如果监测 MT 性能后表明存在提升空间,可能随着时间推移需要考虑投入额外训练成本;考虑到潜在优势,在某些情况下,值得投资 MT 训练 |
表 1. MT 定制与 MT 训练对比
阅读我们的博客,详细了解机器翻译定制和机器翻译训练。
— Lionbridge MT 业务分析师 Thomas McCarthy
大型语言模型 (LLM) 会取代神经网络机器翻译 (NMT),成为机器翻译 (MT) 的理想范式吗? 为了找出答案,我们将 OpenAI LLM GPT-3 系列的新版本 ChatGPT 和我们目前进行 MT 质量追踪的五个主要 MT 引擎的翻译表现进行了对比。
不出所料,专业 NMT 引擎的翻译表现比 ChatGPT 更好。 但令人惊讶的是,ChatGPT 交出的答卷同样让人惊叹。 如图 1 所示,ChatGPT 的表现几乎可以媲美专业引擎。
我们使用英语-西班牙语语言对的多份参照译文,根据编辑距离倒数算出了 MT 质量水平。 编辑距离指的是人工译员为确保编辑后的译文能达到人工翻译质量而必须做出的改动数量。 为了评估效果,我们将未经编辑的 MT 译文与 10 份不同的人工翻译(多份参照译文)进行对比。 编辑距离倒数值越高,翻译质量就越好。
图 1. 使用英语-西班牙语语言对的多份参照译文,根据编辑距离倒数比较 ChatGPT 和主流机器翻译引擎自动化翻译的质量。
因为该通用模型只接受过执行自然语言处理 (NLP) 的训练,并没有专门针对翻译任务进行过训练,所以它能取得这样的翻译表现是值得赞扬的。 ChatGPT 的表现大概能够达到 MT 引擎两三年前的译文质量水平。
公众对 LLM 大加关注,科技公司也对这项技术进行重大投资,这促进了 LLM 的演化。鉴于此,我们可能很快就会知道 ChatGPT 是否会取代 MT 引擎,或 MT 是否会开始采用新范式 — 大型语言模型。 MT 可能会将 LLM 作为基础,然后根据机器翻译的特别要求对这项技术进行微调。 这与 OpenAI 和其他大型语言模型公司的做法类似,这些公司会针对特定使用情形(比如令机器有可能以对话方式与人类交流)完善其通用模型。 专业训练可以让机器更准确地完成特定任务。
这些大型语言“通用”模型有一项优势:它们能完成许多不同的任务,并且大多数任务执行得非常不错。 举例来说,另一种通用智能模型 DeepMind GATO 已经针对 600 多种任务进行了测试,并且在完成其中 400 种任务时取得了“目前最佳水平”(SOTA) 结果。
两条发展线路会继续存在 — 一条是通用模型,比如 GPT、Megatron 和 GATO;另一条是基于这些通用模型,为达到特定目的而打造的专业模型。 通用模型对于促进通用人工智能 (AGI) 有重要意义。长期来说,这类模型甚至可能会推动影响更加深远的技术进步。 而专业模型在短期内则将实际用于特定领域。 关于 LLM,有一点值得一提 — 这两条线路可以齐头并进。
未来浪潮涌动之处,就是我们心之向往之地。 我们会持续评估 LLM 并公布结果,以便您能及时了解这场激动人心的演化之旅的新动向。 访问我们的博客,深入了解 ChatGPT 的翻译表现、ChatGPT 和本地化以及为什么 ChatGPT 是一项颠覆性技术。
— Rafa Moral,Lionbridge 创新副总裁
在 10 月 11 日 至 11 月 1 日期间,我们见证了 Microsoft 机器翻译 (MT) 的整体翻译质量得到不错的改善,Bing Translator 的翻译质量最近也有了提高。这样一来,主流 MT 引擎的提高程度可以说是不相上下。 在这种趋势下,谁将成为 MT 领域的赢家,仍然胜负难料。
几个月来,主要 MT 引擎所取得的进展都称不上亮眼。 我们希望 Microsoft 的这次进步将打破这种平静的态势,为各大引擎敲开后续进展的大门。
我们突破了以往常规的单一对照译文衡量方式,并通过使用包含多份对照译文的二次追踪证实了 Microsoft 此次的改善结果。 在这次 MT 评估中,我们使用了 10 份出色的人工翻译作为对照,而非仅使用单份对照译文,由此得到了更加准确的编辑改动程度指标,该指标将多种可能正确的翻译纳入对最终结果的考量。
今年已近岁末,我们注意到 2022 年 MT 的发展乏善可陈。 很少有水花激起我们的注意;这一次的 Microsoft Bing MT 进步大概都可以称为全年的重头戏了。 就像今年早先有人评论的那样,当前的 MT 范式可能正在进入一个瓶颈期。 我们很期待机器翻译在 2023 年能为我们带来惊喜。
— Rafa Moral,Lionbridge 创新副总裁
本月,我们想与您一同关注语言正式性问题。在使用机器翻译 (MT) 时,我们通常很难得到正确应用正式性的译文,但也并非没有可能。
机器翻译 (MT) 引擎产出的译文有可能使用了错误的语言正式性,也可能没有确保一致的正式性。 之所以会这样, 是因为 MT 模型在处理每个输入句段时,通常只能返回一种译文。 当输入句段本身表意模糊时,模型必须在众多有效的译文版本中选出一种,而不会顾及目标受众的感受。 让模型在不同的有效译文版本中进行选择,就有可能导致译文不一致或译文正式程度不正确的情况。
尤其是当目标语言的正式性区分细于源语言时,想要通过 MT 获得正确译文,则更是难上加难。 例如,法语对语言正式性的规定就十分明确,有的情况用 tu(你),有的情况用 vous(您),但英语中没有类似规定。
尽管大多数 MT 系统不支持语言正式性或阴阳性参数,我们还是能够看到一些突破。 目前,DeepL (API) 和 Amazon(控制台和 SDK)都具备控制语言正式性的功能。 除此之外,还有 Lionbridge 的 Smart MT™,它是一款企业级机器翻译解决方案,能够将语言规则应用到目标文本中,让机器翻译也能够产出在语言风格和语言正式性方面都令人满意的译文。
有效地翻译源文本以满足目标受众的需求,这一点至关重要,包括在 MT 译文中使用正式和非正式的语言。 如果应该使用正式语言的译文不够正式,甚至粗鲁无礼,那么客户就有可能对您心生嫌隙。
阅读我们的博客,了解关于 MT 正式语体和非正式语体的更多信息。
— Yolanda Martin,Lionbridge MT 专家
机器翻译 (MT) 的确具备一些优势,但在使用时,您需要多加小心。 通用 MT 引擎有可能引致错误译文,尤其在翻译特定领域的文本时,术语往往翻译不当,导致译文质量不尽人意。 如果是医学和法律内容,后果则尤为严重。 别担心,您可以采取一些措施,优化 MT 译文。
您可以使用术语提高 MT 的质量,获得表述准确、用词一致的译文。
要训练定制的 MT 系统,必须运用包含特定领域专业术语的双语文本。 如果用于训练的专业文本中的术语不一致,那么仍然无法保证引擎输出准确译文。 根据该领域研究,应当将语言信息注入到神经网络机器翻译 (NMT) 系统中。 能否手动或半自动进行注释,取决于资源(如词汇表)和条件(如时间、成本,以及是否有人工注释人员)。
Lionbridge 的 Smart MT™ 能够将语言规则应用到源文本和目标文本中,还能够根据具体配置的保留不译 (DNT) 和词汇表列表应用术语。 我们能够帮助客户创建、维护并定期完善词汇表,补充新的相关术语,淘汰过时的术语。 运用 Smart MT 创建词汇表后,客户就可以将其用于所有 MT 引擎,从而节省时间和成本。
在 MT 项目中应用词汇表并非看上去那么简单。 如果应用不当,可能会对机器翻译的整体质量产生负面影响。 在 MT 中应用术语的最佳方式是训练 MT 引擎。 结合使用训练有素的 MT 引擎、定制的词汇表以及预处理和后处理规则识别技术,能够有效确保 MT 输出的译文使用正确术语,译文还能够遵循客户文档的风格。
阅读我们的博客,获取更多关于使用术语优化 MT 译文的深刻洞见。
— Yolanda Martin,Lionbridge MT 专家
如今,各公司更加依赖机器翻译 (MT),将其作为常规做法,对于员工而言,他们将需要防止重大错误传播开来。
普通的 MT 错误指的是与语言特征有关的错误,例如拼写、语法或标点符号,而重大错误比这类错误更严重。 如果 MT 引擎译文严重偏离源文本要传达的信息,那就会出现重大错误,这种错误超出了语言学的范畴, 会产生虚假信息或造成误解,有可能让公司面临声誉、财务或法律方面的问题,还可能会危害公共安全或健康。 因此,必须设法找出这种错误,以免影响您与受众沟通。
Lionbridge 可以针对翻译文本执行特定的自动化质量检查,以此检测严重错误,同时还可以保证 MT 速度并减少对人工干预的需求。
这些自动化方法可以检测以下重大错误:
如果计算机科学家能够改进目前的 MT 技术来避免这些翻译错误,那么公司出现重大错误的几率就会更低。 但在此之前,我们可以利用自动化技术来识别翻译流程中的潜在问题,修改有问题的句子,并提升准确性。
阅读我们的博客,深入研究机器翻译中的重大错误。
— MT 团队负责人 Luis Javier Santiago
与 Lionbridge 创新副总裁 Rafa Moral
Google NMT、Bing NMT、Amazon、DeepL 和 Yandex,哪个引擎的翻译效果更好?上月数据以及当前综合趋势显示,各主流引擎的表现不分伯仲。因此,在制定 MT 策略时,我们有必要将其他因素纳入考虑,例如,MT 引擎处理特定语言对的难易程度。
了解这一信息有助于您在规划多语种翻译成本时合理分配预算。例如,在处理较为复杂的语言对时,若要获取高质量译文,就需要投入更多精力。了解语言复杂程度能够方便您做出业务决策。
判断各语言翻译的难易程度并非浅显直接,但我们可以使用不同的指标进行衡量,编辑改动程度便是其一,它指的是译后编辑人员为确保最终文本能达到与人工翻译媲美的质量而执行的更改数,可用于判断每个语言对使用机器翻译的复杂性和可翻译性。
从英语译入大多数罗曼语族语言(例如葡萄牙语、西班牙语、法语、意大利语),MT 译文质量通常较好,不需要进行大量修改。我们认为这几种目标语言是机器最容易处理的语言,位列机器可翻译性排行榜前四。匈牙利语和芬兰语这两种乌拉尔语系语言则更为复杂,在我们的排名中位列末尾,分别排在第 27 位和第 28 位。同属乌尔拉语系的爱沙尼亚语也较为复杂。Lionbridge 处理了数百万个句子后得出了以上结论。这个结论凸显出一点:语系是影响 MT 质量的一个重要因素。
对于语系内语言的比较,虽然结论目前尚不完善,但机器可翻译性的排序结果还是可以提供一些耐人寻味的见解,让我们能够更好地管理多语言项目。阅读博客,查看完整的 Lionbridge 语言排行榜。
— Rafa Moral,Lionbridge 创新副总裁
在 6 月份,我们观察到 Yandex 的机器翻译 (MT) 引擎在俄语翻译方面的表现有所改善,但 Microsoft Bing 的 MT 引擎的翻译表现略有下降。 这些变化是否值得关注?还是只是假象,根本不值一提? 为了找出答案,我们从不同角度对上述结果进行了分析。
我们使用了多份对照译文来衡量 MT 与出色的人工翻译之间的差距,而非仅使用单份对照译文。 对于每一份 MT 译文,我们都将其与 10 份专业译员的译文进行比较。 通过比较,我们发现,6 月份 Yandex 和 Microsoft Bing 在翻译质量方面的小幅波动消失了。 因此,我们可以得出结论,MT 翻译质量没有发生变化。 在 6 月份,上述两种引擎表现均原地踏步。
有时数据及其图表可能会产生误导。 当不同测量值之间存在小幅差异时,这种情况则时常发生。 使用多种方法评估数据有助于对数据结果进行精确解读。
我们预计,MT 引擎质量在未来几个月将一直表现平稳。 我们将在本栏目提供分析和综合 MT 观察结果。 下个月,我们将对 MT 语言对进行比较。 我们将探讨是否可以使用数据并按照 MT 复杂程度对语言和语言谱系进行分类,以及确定机器是否在翻译某些语言对时更加轻松。
— Rafa Moral,Lionbridge 创新副总裁
对于各 MT 引擎来说,这个月称得上风平浪静。
我们注意到 Amazon 优化了其引擎处理英语-西班牙语语言对的方式。 目前,在此语言对方面,Amazon 引擎已然十分出色。 Amazon 引擎在其他语言方面也略有进步,但提升程度不及英语-西班牙语语言对。 我们猜测,这些改进得益于一些通用设置变动以及针对英语-西班牙语语言对进行的研究。 这一点从对某些特殊字符和带有度量单位的字符串的处理上就能够看得出来。
连续两个月以来,Yandex 都是略有提升。 有意思的是,它的改进也涉及西班牙语。
正如我们之前提到的,这个月没有发生什么显著的变化。 所有引擎的表现都差不多。 在接下来的几个月中,我们将会对一些特定的 MT 领域展开分析并提供综合观察结果。 当然,我们也会持续跟踪各引擎的重大进展。
— Rafa Moral,Lionbridge 创新副总裁
Yandex 的机器翻译 (MT) 引擎在过去几个月一直表现平平,但最近取得了长足进步,尤其是其德语引擎。
通过一项详细分析,我们发现 Yandex 引擎在处理带有标点符号(例如问号、感叹号、括号和斜杠)和度量单位的句子方面进步非常大。 这可能源于对 MT 设置进行的调优,而非模型改进。 不过,通过对罕见词汇翻译的跟踪,我们发现 Yandex 也有所改进,这说明取得进展的原因可能也包括模型改进或更多的数据训练。
差不多是在去年的这个时候,我们发现多个 MT 引擎都取得了极具意义的进展。 我们不禁思考:这种进展是否会遵循某种时间模式? 今年还会出现我们在 2021 年观察到的情况吗? 当前,我们正在跟踪这些引擎的 MT 表现,并且将在下个月左右报告相关发现。
总体而言,人们对 MT 引擎评估的兴趣日益高涨。 目前,大多数人都认为 MT 是一项成熟的技术。 人们认识到,这项技术几乎适用于各种翻译场景,包括纯机器翻译、带人工干预的机器翻译和混合型翻译场景。 不过,MT 用户仍然在努力寻找适当的方式以评估、衡量和改进 MT 结果。
— Rafa Moral,Lionbridge 创新副总裁
如果您一直关注相关页面,那么您对我们的通用 MT 比较评估一定不陌生。 我们每个月都会对多个 MT 引擎进行评估,看看对于特定语言对,谁的表现更优秀,并跟踪各引擎的改进情况。 在三月份,各个引擎的表现均原地踏步。 我们发现,这种趋势已经持续了一段时间。 正如我们在上个月的评论中所说,这可能表示我们需要新的 MT 范式。
我们分享的是通用 MT 的结果,但我们发现,许多公司越来越关注客制化 MT 的比较评估。 和通用 MT 评估不同,这类评估将公司的具体需求纳入考量,以此为基础选出更具优势的 MT 引擎。
如果一家公司计划采用 MT 或希望改善当前的 MT 使用方式,其中的关键在于确定哪种 MT 引擎效果更好。 在执行客制化评估时,我们采用的评估方式与此页面中展示的方式类似,但我们会基于公司的内容类型和语言对需求给出建议。
虽然客制化 MT 比较评估已经问世多年,但其需求却更胜以往。 我们将这一趋势归因于 MT 对于帮助公司制胜数字化市场发挥着重要作用。
— Rafa Moral,Lionbridge 创新副总裁
2022 年 1 月和 2 月,Google 的机器翻译 (MT) 引擎性能略有提高,但我们追踪的其他引擎停滞不前。 人们可能会因此提出一些尖锐的问题。 神经网络机器翻译 (NMT) 范式是否遇到了瓶颈? 这些引擎无法取得重大突破,是否需要转而研究新的范式? 因为在统计 MT 被 NMT 取代时,人们也曾观察到类似的趋势。
在统计 MT 时代落幕前夕,人们发现这种翻译引擎的质量基本不再提升。 另外,不同统计 MT 引擎的质量开始趋于一致。 历史似乎正在重演。 NMT 可能不会立即被新一代引擎取代,可如果我们相信加速回报定律以及技术进步以指数方式发展,再考虑到大环境 — 基于规则的 MT 盛行了 30 年,但统计 MT 只风靡了十年,而如今,NMT 也已诞生六年了 — 这么看来,新范式的面世可能也不是遥不可及。
— Rafa Moral,Lionbridge 创新副总裁
在 1 月份,各大主要机器翻译 (MT) 引擎的表现变化不大。
在部分语言和领域,Google 略有进步。 其他大部分引擎原地踏步。 Microsoft 的表现在过去几个月中节节攀升,但在 1 月份进入停滞期。 整体来看,Google Translate 仍然领跑通用型 MT 技术赛道。
在 12 月份,我们将第五种 MT 引擎纳入了 Tracker 检查。 通过监测 Yandex,我们得以对俄语的 MT 质量进行更准确的分析。
— Rafa Moral,Lionbridge 创新副总裁
在 12 月份,我们将 Yandex MT 纳入了 MT Quality Tracker 对比检查。
根据我们的测试,截至目前,Yandex:
其他观察结果包括,在 2021 年末的几个月内,MS Bing 的翻译质量取得进步,其中,英中翻译的进步尤为明显。 Amazon 也有所进步。 新年伊始,Google 的翻译质量得到改善,开始领跑。 具体来说,其英西、英俄和英德的翻译质量得到改善。 在我们对其追踪观察的五周内,Yandex 的表现未发生变化。
— Rafa Moral,Lionbridge 创新副总裁
经过几周的实验,在翻译引擎整体性能波动过后,Microsoft 神经语言程序学 (NLP) 工程师们取得了一些研究成果。 在过去几周中,Bing Translator 的整体表现取得进步,中文翻译进步尤其明显,这款 MT 引擎借此成为上个月的大赢家。 Bing Translator 与同类引擎在大部分领域的差距有所缩小,其表现甚至超越了部分同类引擎。 Bing Translator 仍然是一款可塑性非常出色的翻译引擎,经过此次改进,这款引擎成为根据特定内容构建自定义模型的理想选择。
— Jordi Macias,Lionbridge 语言卓越副总裁
10 月,Amazon 的机器翻译 (MT) 引擎在上月成果的基础上加以改进,继续取得了喜人进展。这些成果得益于 Amazon 在过去的几个月内进行的第二轮 MT 优化工作。
以下是 Amazon 的 MT 引擎在过去几个月中持续发展所取得的一些成果:
— Jordi Macias,Lionbridge 语言卓越副总裁
我们在 9 月见证了 Amazon 机器翻译 (MT) 引擎的巨大进步。首先,德语和俄语的 MT 质量有所提升。其次,西班牙语和中文与不同语言之间的互译质量得到显著提升。这些成果得益于 Amazon 在过去的几个月内进行的第二轮 MT 优化工作。
除此之外,Amazon MT 引擎还进行了以下变动:
— Yolanda Martin,Lionbridge MT 专家
所有科技巨头都开发了自家的 MT 引擎,例如 Microsoft、Google、Amazon 和 Facebook,现在 Apple 也加入此行列。美国境外市场的许多其他大公司也纷纷争取在该领域站稳脚跟。这些科技巨头显然认为当下世界的互联互通离不开 MT 和自然语言处理 (NLP) 工具。
Lionbridge 也充分意识到这点,抓住机会,密切关注该领域的发展趋势。我们会根据客户公司的需求,针对其要处理的语言对和内容类型,为其甄选出理想的 MT 引擎。
随着众多知名科技公司进军 MT/NLP 领域,竞争将日趋激烈。毋庸置疑,随着被戏称为“细节控”和“品质控”的 Apple 加入,其他公司定会进一步提升其技术。
— Rafa Moral,Lionbridge 创新副总裁