Lionbridge 的 TRUST 框架
建立对 AI 应用的信任
选择语言:
随着专业人员和普通大众越来越多地使用免费的通用机器翻译 (MT) 系统,我们必须认识到这类引擎可能会输出有缺陷的译文。不尽人意的译文或严重错误可能会对您的业务造成巨大损失。但您可以使用一些方法提升 MT 质量,例如有效管理 MT 术语。
由于术语与其所表达的概念之间关系非常复杂,因此术语一直是横在机器翻译面前的一道鸿沟。
使用免费 MT 系统翻译特定领域的文本时,术语往往翻译不当,导致译文质量不尽人意。如果是医学和法律内容,后果则尤为严重。
尽管可以利用特定领域的语料库来训练 MT 系统,在一定程度上小幅度提升译文质量,但使用通用 MT 系统可能无法保证术语的一致性和准确性。
MT 引擎的译文质量取决于用来训练的双语语料库的质量和其他因素。因此,只有当语料库的原文和译文部分都包含相关术语时,才能保证术语的准确翻译。
神经网络机器翻译 (NMT) 系统运行时会分析术语的概率分布,这类系统的存在很有必要,但却不足以确保译文质量准确出色。因为只有术语在语料库中达到一定的出现频次要求时,解码器才能获取到准确的译文。如果某个术语的出现频次不足,那么就会由于比重不足而无法成为一个候选的译文,则该术语将无法正确翻译。
通用 MT 系统通常使用包含各色内容的大型语料库来训练。这就可能出现:真正要翻译的是某一领域的术语,而词频最高的候选术语与其待选译文完全来自其他领域。这种情况可能导致待翻术语没有准确地翻译成目标语言。
例如,英语术语 terminal 可以译为端子,也可以译为枢纽。通用 MT 引擎难以区分实际语境,可能会导致译文错误。
要解决此问题,必须运用包含特定领域专业术语的双语文本来训练定制 MT 系统。
如果用于训练的专业文本中的术语不一致,那么仍然无法保证引擎输出准确译文。
根据该领域研究,应当通过注释的方法将语言信息注入到 NMT 系统中。
能否手动或半自动进行注释,取决于资源(如词汇表)和条件(如时间、成本,以及是否有人工注释人员)。
Lionbridge 的 Smart MT™ 能够将语言规则应用到源文本和目标文本中,还能够根据具体配置的保留不译 (DNT) 和词汇表列表应用术语。
我们能够帮助客户创建、维护并定期完善词汇表,补充新的相关术语,淘汰过时的术语。运用 Smart MT 创建词汇表后,客户就可以将其用于所有 MT 引擎,从而节省时间和成本。
在 MT 项目中应用词汇表并非看上去那么简单。如果应用不当,可能会对机器翻译的整体质量产生负面影响。在 MT 中应用术语的理想方式是训练 MT 引擎。
结合使用训练有素的 MT 引擎、定制的词汇表以及预处理和后处理规则识别技术,能够有效确保 MT 输出的译文使用正确术语,译文还能够遵循客户文档的风格。
评估机器翻译的术语管理功能时,应考察解决方案是否具备以下能力:
拥有这些功能便可以确保输出更高质量的译文。
Smart MT 通过连接工具与许多第三方 MT 系统协同工作。可以将其作为“MT 控制中心”,实现以下目标:
Lionbridge 还提供其他自动化功能,如果训练语料库和 MT 译文中使用的术语与客户词汇表不一致,我们的解决方案可以将其识别出来;如果训练语料库或之后的 MT 译文未遵循经过审核的术语,这些自动化功能也可将其识别出来并进行更正。
如果我们了解到 MT 不包含所需术语,则会建议使用包含 DNT、产品名称和特定关键领域或品牌术语的词汇表。
为确保能够获得满意的机器翻译效果,我们建议您在创建词汇表时考虑以下准则:
如需详细了解 Lionbridge 如何帮助您管理术语并充分利用 MT,请立即联系我们。