Two separate sets of couples collaborate in a work setting

机器翻译定制与机器翻译训练

使用两种方法提高自动化翻译质量的适用情形

如今,有更多的公司相继开始使用机器翻译 (MT),我们预计会有越来越多的公司加入这一行列。出现这一趋势是因为该技术的译文质量越来越稳定,并且企业面临巨大的市场压力,需要以相同,甚至是更少的预算,用众多语言快速制作出更多内容。MT 技术翻译速度快、成本低,人工翻译无法企及,但企业还必须解决 MT 的质量问题。要在数字化程度越来越高的市场中取得成功,企业必须提供个性化的多语言内容,这些内容需要针对特定领域,具有特定基调,并使企业在所有渠道中保持一致的品牌形象。

您如何能够充分利用自身的 MT 计划来更好地实现这些目标呢?提高机器翻译效果有两种方式:机器翻译定制与机器翻译训练。虽然这两种方法都可以提高 MT 译文质量并减少后期编辑工作,但这两个概念无法互相替代。

请继续阅读,了解两种方法的工作原理,两者之间的不同之处,以及根据使用情形作出合理选择的方法。

为何公司不能单纯依靠通用 MT?

如果公司要翻译的内容比较简单,属于常规内容,那么 Google NMT、Bing NMT、Amazon、DeepL 或 Yandex 等未经训练的通用机器翻译引擎生成的译文通常就可以满足需求,但有可能会不尽人意。

为什么会这样呢?因为通用引擎经常无法翻译专业性很强的内容,比如生命科学或法律行业的内容,也无法翻译这些特定领域相关的词语。在一词多义的情况下,它无法根据语境应用正确的含义。而且它无法让贵品牌保持一致的独特形象,也无法判断该使用正式语体还是非正式语体,因此会影响您与受众沟通的效果。

如果通用引擎无法满足您的特定要求,您可以通过 MT 定制和 MT 训练弥补这些缺陷,提高翻译质量。

什么是 MT 定制?

MT 定制利用翻译词汇表和保留不译 (DNT) 清单对已有的机器翻译引擎进行调整,以此提高机器译文的准确性。(翻译词汇表辑录了公司重要术语及对应译文。DNT 清单收录了公司希望保留不译的术语。)

MT 定制的工作原理是,先上传一份源术语及对应译文的清单,再让引擎进行翻译。该清单指示 MT 引擎如何翻译术语,或者特意不让引擎翻译特定术语。进行这种干预可以改善引擎建议的质量,让公司能够保持其品牌名称一致,遵循术语,并实现地区性差异。译文越优秀,需要的后期编辑就越少。

相比于 MT 训练,MT 定制采用起来更容易,但有一些事项需要注意。虽然将术语上传至机器翻译系统这个过程不难,但合理地选择术语却并非易事。MT 专家的技能水平以及管理输入和输出规范化规则、DNT 清单和词汇表的能力均可改善译文质量,因此这些能力很大程度上决定了 MT 定制是否能成功。如果制定术语表的人员经验不足,则可能会无意间导致 MT 提供的建议质量低下,并对整体质量产生负面影响。

什么是 MT 训练?

MT 训练流程包括构建和训练 MT 引擎,通过使用来自语料库和翻译记忆库(以前翻译过的内容)的大量双语数据来提高机器生成译文的准确性。

它的工作原理是,使用公司特定的双语语料库训练通用 MT 引擎。它接收各种翻译过的内容作为输入数据,这些内容通常采用翻译记忆库 (TM) 格式。翻译记忆库除了提供之前已审核的译文之外,还提供宝贵的类元数据,比如,句子的翻译时间、翻译人员,是完全匹配还是不太精确的模糊匹配。这些数据让引擎能够了解公司希望获得什么样的译文。引擎不是根据它认为源内容应该翻译成的译文来提出一般性的翻译建议,而是根据语料库生成定制的译文。

由于引擎能够更好地确保译文一致性,因此,使用 MT 训练的公司只需对译文进行微调,即可轻松展现特定的品牌形象或风格。您不必使用通用 MT 引擎通常采用的正式语气,而是改用非正式语气。与 MT 定制一样,由于引擎可以更恰当地生成错误更少的准确译文,因此公司可以在减少后期编辑的情况下达到所期望的翻译效果。

公司在训练 MT 引擎时要尽可能多地提供优质句段数据,以提高译文质量。要想取得不错的 MT 训练效果,公司至少需要提供 1.5 万个独特的双语句段,这些句段的质量必须高,而且不存在不一致的情况,也没有源-译文重复的问题。如果公司不能满足这些最低要求,训练可能就无法对译文产生实质性的影响,甚至不会有任何影响。

MT 定制与 MT 训练之间有何区别?

虽然两种方法都能提高 MT 译文质量并减少后期编辑工作,但两者的相似之处也仅此而已。它们不能互相替代。

这两种方法之间的区别在于,MT 定制是借助词汇表和保留不译 (DNT) 清单对先前已有的 MT 引擎进行调整,而 MT 训练是使用语料库和翻译记忆库的大量双语数据从零开始构建和训练引擎。

MT 定制的用途比 MT 训练更广,并且提供的建议可以满足绝大多数公司的要求。但定制需要更新加载到 MT 引擎中的配置文件,因此会产生相关的一次性费用。并且随着时间推移,还需要投入一些额外成本来维护词汇表。

MT 训练更适合那些源语言内容的专业性很强、MT 的适用情形较复杂的成熟企业。实施 MT 训练需要投入初次训练成本,并且如果监测 MT 性能表现后表明存在提升空间,可能随着时间推移需要考虑投入额外训练成本。

A geographic pattern overlays a cityscape at night

我的公司何时应考虑使用 MT 训练与 MT 定制?

贵公司是否需要翻译科学材料或高科技手册?您是否需要保持贵企业独特的品牌形象?这些问题的答案可以帮助您判断 MT 定制还是 MT 训练更合适。

MT 定制的适用情形

MT 定制有两大适用情形。当您需要实现以下目标时,可以使用它:

  • 准确翻译术语
  • 呈现地区性差异(例如美式英语与英式英语),但您没有足够的数据进行训练

MT 定制适合侧重技术和细节的内容,因为对于这种类型的内容,正确翻译术语至关重要。当您缺乏足够的数据进行有效的 MT 训练时,可以优先考虑 MT 定制。

MT 训练的适用情形

MT 训练有两大适用情形。当您需要实现以下目标时,可以使用它:

  • 呈现特定的品牌形象、语气或风格,同时要确保需要减少后期编辑工作量
  • 体现出目标语言的地区性差异(例如瑞士法语与法国法语),并且您有充足的数据进行训练

当翻译营销和创意内容时,MT 训练是理想之选,因为特定的品牌形象、语气和风格对这类内容来说必不可少。然而,要成功训练引擎,务必要确保自己掌握足够的数据。

训练定制相结合

有时,两者相结合可以带来更理想的效果。例如,如果公司通过一些定制手段来改善 MT 训练效果,MT 可能会给出更合理的建议。

Lionbridge 让客户能够轻松实施混合方法。客户可以通过 Lionbridge 的企业级 MT 解决方案 Smart MT™ 门户来定制自己的 MT,与此同时,还可以选择购买 Lionbridge 技能娴熟的团队提供的专业训练服务。通过与这些团队合作,公司通常可以更全面地实施 MT,并且往往结合使用 MT 训练与 MT 定制,以获得更理想的译文。公司可以通过各种测试更好地了解怎样生成的译文更理想,并有助于量身定制 MT 方案。

MT 定制与 MT 训练:哪种策略更出色?

优化 MT 译文的理想方法取决于您的实际情况。当您探索各种方案的时候,可能很容易会将 MT 训练作为充分利用 MT 的唯一优选方法,也可能会被关于持续训练的夸张宣传所吸引。但当您研究各种方案时,需要牢记以下几点。

避开陷阱 1:将 MT 训练作为唯一的解决方案

MT 训练可以作为优化 MT 译文的有效手段,但仅对已经发现的目标问题有效。

随着 MT 使用率的提高,许多提供商将 MT 训练作为他们的首选解决方案,试图为其客户提供价值。然而,这种方法在某些情况下可能适得其反。一些公司原本仅使用训练,希望提高 MT 译文质量,但随后又找到 Lionbridge 寻求服务,他们表示,在进行成本收益分析之后,对训练感到失望。他们对引擎生成的建议不满意,希望能有更具成本效益的解决方案。他们为何不满意?简而言之,有更好的方法来解决他们的具体情况。

像 Lionbridge 这样的创新型 MT 提供商会在恰当的时候使用 MT 训练,但主要依托定制手段,从而以低于 MT 训练的成本提供符合质量预期的 MT 译文。

避开陷阱 2:有关持续训练的宣传

当您研究 MT 解决方案时,提供商会推广一种概念:在单个项目完成后持续训练引擎。要当心此类宣传。只有在处理需要持续更新的定制引擎时,持续训练才合理。

我们想要强调的是,只有当单个项目拥有至少 1.5 万个独特句段来训练引擎时,MT 训练才会取得成功。当公司没有足够的数据时,他们所做的可能是使用项目内容来更新定制功能,而这在许多情况下也会被叫做“训练”。

概要总结

定制相比 MT 训练用途更广泛。它生成的建议 MT 译文可以满足绝大多数公司的要求。借助 MT 定制,您可以充分优化 MT 建议,保持品牌名称一致,遵循术语,进而减轻译后编辑人员查对这些项目的工作量。更新 MT 引擎配置文件所产生的一次性成本,以及随着时间推移维护词汇表带来的一些持续成本,通常都比 MT 训练的成本更低。

A geographic pattern overlays a cityscape at night

MT 定制有哪些优秀实践?

在实施 MT 定制时,请务必遵守一些优秀实践。

输入和输出规范化规则

根据您的特定要求,针对常用语言设立输入和输出规范化规则库,以控制 MT 输入并优化其输出质量。

例如,输入规范化规则可能指示 MT 引擎在输出的法语译文中使用法文引号 [« … »] 代替双引号 [“...”]。该规则优化了输出的法语译文,因为法语读者希望看到的是法语中的引号,而不是英文的双引号。公司可以应用输入和输出规范化规则来作出类似修改,解决原始语(例如法语)在不同地区的变体(例如,比利时法语、加拿大法语、非洲法语等)问题。

“保留不译”清单和规则

列出一组不希望翻译的术语并创建一条规则,该规则将已确定的各个保留不译 (DNT) 术语替换成标记,然后再加载到引擎中。此操作会让引擎看不到该术语,并防止引擎对其进行翻译。在处理完翻译并返回 MT 建议之后,设置输出规范化规则,以便将标记替换成 DNT 术语。

词汇表准备工作

仔细准备您的词汇表,以推动实现准确一致的翻译。在决定是否将一个术语加入词汇表时,请考虑表 1 中列出的关键因素。

编制词汇表的一般准则

考虑因素 要提问的问题 该术语是否应该加入词汇表?*
频率 该术语在源文本中的出现频率如何? 如果术语不经常出现,则不要将它加入词汇表。
不确定性 该术语是否有多重含义?或者它是否很容易与其他单词混淆? 如果术语含糊不清,则将它加入词汇表。(注:确保该术语的其他含义基本不适用于源文本。)
专业术语 该术语是否专门针对某个特定领域或主题领域? 如果是的话,则将它加入词汇表。
一致性 该术语以往是否有一致的翻译? 如果是的话,则不要加入词汇表。
重要程度 该术语对文本整体含义的理解有多重要? 如果它是文本含义的关键所在,则将它加入词汇表。
复杂性 该术语是否复杂?机器翻译系统是否很难翻译准确? 如果是的话,则将它加入词汇表。

表 1. 创建词汇表时要考虑的因素。

*这些一般准则可能有例外情况。

必做事项和避免事项

在创建词汇表时,我们还建议遵循以下守则:

  • 不要包含一般性术语,例如单个单词、动词和形容词,这些词语会让 MT 的效果不尽如人意,并且可能会对总体质量、句子结构、一致性和词序产生负面影响
  • 不要拆分长术语
  • 术语不要互相冲突
  • 不要包含重复条目
  • 一个术语在每种源语言中只有一个条目
  • 使用多字表达
  • 使用特定的产品名称
  • 使用 DNT 术语

Lionbridge 如何开展 MT 定制和 MT 训练?

Lionbridge 的 Smart MT 门户让客户可以轻松实施 MT 定制,我们的技术允许针对多个 MT 引擎同步应用定制。您编制自己的 MT 词汇表和 DNT 清单并上传这些术语;然后就可以将它们用于各个 MT 引擎。该技术能够让您避免依赖于固定的引擎,可以随时进行更换以获取更理想的结果。

此外,我们的 MT 专家还提供相关服务,可以方便地搭配我们的 MT 技术使用。在合作过程中,我们帮助公司确定有实效的 MT 策略以及如何执行该策略更合适。

无论您是刚开始探索 MT 的使用,还是希望通过定制提高现有 MT 成效,或是由于创作内容增多,MT 训练变得可行,我们都有满足您需求的解决方案。

机器翻译训练和机器翻译定制之间如何比较?

表 2 是 MT 训练与 MT 定制之间的对比一览图,看看哪种方法适合您的内容。

机器翻译定制与机器翻译训练

  MT 定制 MT 训练
概念和工作原理 利用词汇表和保留不译 (DNT) 清单对已有的机器翻译引擎进行调整,以提高机器生成的译文的准确性 通过使用来自语料库和翻译记忆库 (TM) 的大量双语数据来构建和训练 MT 引擎,以提高机器生成译文的准确性
用途 提高 MT 建议的质量,让译文更准确并减少后期编辑工作 提高 MT 建议的质量,让译文更准确并减少后期编辑工作
具体优势 让公司能够遵循其品牌名称和术语,并实现地区化差异 让公司能够获得特定的品牌形象、语气和风格,并实现地区化差异
使用风险 执行不当时,MT 可能会提出糟糕的建议,并对整体质量产生负面影响 如果没有足够多的优质数据来训练引擎,MT 训练可能无法影响译文结果;如果经验不足的作者过度使用术语,MT 可能会生成糟糕的建议并对整体质量产生负面影响
适用情形 适合侧重技术和细节的内容以及任何有以下要求的内容:
*准确翻译术语
*体现地区化差异,但您缺乏充足的数据进行 MT 训练
适合专业性很强的内容、营销和创意内容,以及任何有以下要求的内容:
*呈现特定品牌形象、语气或风格
*体现地区差异,并且您有足够多的数据进行 MT 训练
成功因素 经验丰富的 MT 专家,能够妥善管理输入和输出规范化规则、词汇表和 DNT 至少 1.5 万个独特句段以充分训练引擎
成本考虑因素 更新 MT 引擎配置文件的一次性成本,以及随着时间推移维护词汇表产生的一些持续成本;考虑到潜在优势,成本相对便宜,并且通常低于 MT 训练成本 初次训练成本,如果监测 MT 性能后表明存在提升空间,可能随着时间推移需要考虑投入额外训练成本;考虑到潜在优势,在某些情况下,值得投资 MT 训练

表 2. MT 定制与 MT 训练对比

联系我们

如果您想进一步了解我们如何帮助您充分利用机器翻译,请立即联系我们

linkedin sharing button

Thomas McCarthy 和 Janette Mandell
作者
Thomas McCarthy 和 Janette Mandell
  • #ai
  • #blog_posts
  • #translation_localization