神经网络机器翻译:人工智能在语言翻译中的作用

大多数营销专家都能感受到,大数据的迅速增长彻底改变了企业提高运营效率和促进创新的方式,而这种增长态势方兴未艾。专家预测,数据量将继续以每年 40% 的速度增长。

尽管企业找到了有效利用数据的方式,他们在应对信息过载方面仍面临诸多挑战。但与此同时,大数据也带来了巨大的机遇,其中之一就是通过本地化促进企业在全球的发展。

除了数据的迅速增长,还有两种因素也在推进本地化行业的变革。其一是计算机能力呈指数级增长,其二是人们日益关注所谓的深度学习,这是 Google 在其图像和语音识别算法中所使用的机器学习类型。

了解了这些因素,我们就不难理解为何最近深度学习在翻译与本地化领域掀起一股潮流,由此发展出我们现在所知的神经网络机器翻译 (NMT)。毕竟,随着数据量增加和技术进步,需要翻译的材料也增加了。但是,NMT 到底是什么?它又如何提高本地化效率呢?

在近期的一场研讨会上,Lionbridge 的机器翻译主管 Jay Marciano 便介绍了这种更准确的新翻译方法的实际应用,以及该方法如何推动整个行业的进步。

神经网络机器翻译的工作原理

神经网络机器翻译是一种相对较新的翻译方法,相关探索历史可追溯到 2014 年底。在此之前,机器翻译基于统计模型运行,而机器学习则依靠之前的翻译数据库(即翻译记忆库)进行。

虽然 NMT 依旧和统计机器翻译 (SMT) 一样依靠翻译记忆库进行训练,但它同时运用了深度学习,也可能运用了更多的训练数据,从而构建了一种人工神经网络。

Marciano 用国际象棋做比喻,解释统计机器翻译的工作原理。下象棋时,棋子的移动范围和走的步数都有限制。所以简单来说,下象棋就是计算所有可能的路线,从中找到最优选择。与之相似,SMT 系统中的机器学习将源语言中的句子划分为多个以 6 个单词为一组的字段(称为 n-gram),在目标语言中也进行相应的划分,通过比较这些 n-gram 或字段找到源语言和目标语言之间的联系。

而神经网络机器翻译则是自己“建立”了一套神经系统,Marciano 解释说。就像练习弹钢琴一样:弹错了就回到错误的地方不断尝试,直至不再犯错。NMT 系统就是通过这种方式进行学习。

从这个意义上说,NMT 比受限且经常不准确的 n-gram 模型有效得多。一方面,NMT 系统基于强大的图形处理单元 (GPU) 运行,而不是 SMT 系统所依赖的中央处理单元 (CPU)。此外,尽管由于数据量巨大,NMT 翻译一句话的速度较慢(就像 SMT 系统与之前基于规则的系统相比,翻译速度也慢很多),但 SMT 在处理与 6 个单词为一组的规则不符的语言时,也存在很大的问题。

当然,NMT 也会遇到一些问题,比如在翻译高度技术性内容时。但这也不是 NMT 独有的问题,所有机器翻译系统都无法准确地翻译包含未知技术缩写词的源材料。对于没有充足训练数据的语言方向(如德语到韩语),深度学习提供了新的可能,那就是使用来自其他语言的源材料的间接的、“中转式”训练数据。

NMT 和 SMT 的主要区别是什么?当我们用深度学习算法处理训练材料时,我们不必告诉算法应该怎么做。算法会自动发现模式,比如源语句的上下文线索。然而,这一过程的具体细节还有待探究。

NMT 和大数据:拓展人类的能力

神经网络最初用于图像和语音识别程序,使用受监督数据来训练系统,比如附带有元数据的狗的图片就是一种受监督数据。通过解读元数据,神经网络系统能够识别出图片内容是一只狗。

然后,系统会在神经网络中寻找建立这种联系的理想方式。如果发现匹配错误,它会退回上一步并寻找更好的方式,直至建立能够正确匹配的神经通路。这将成为未来进一步强化的通路。

进行语音识别时,对于给定语言中的给定录制语句,深度学习通常只能找到一份正确的文字转录,因此训练是比较简单的。而用于翻译的训练材料涉及更多干扰因素,因此也更加复杂。

但 Marciano 仍相信,人类认识和分析世界的能力有局限性,深度学习和大数据能够帮助我们打破这种局限。大数据产生了海量信息,借助大数据,我们可以突破人类识别能力的局限,从中发现复杂的模式以及这些模式之间的联系。

但我们无从想象 NMT 的具体运作方式。这是因为大多数 NMT 处理是在复杂数据的“隐藏层”中进行的,因此我们很难了解神经网络的决策方式。

这也就是为何我们只能提供训练材料,然后让算法进行处理,如果翻译不准确再对训练材料进行调整。Lionbridge 也使用 GeoFluent 更正 NMT 输出中的错误。

采用 BLEU 等质量评价方法,成为了一个灰色地带。如果 NMT 系统出于不明原因选择了与参考译文不同的翻译,即使这种翻译无比正确,也会因为词汇选择原因遭到罚分。

神经网络的前景和相关通信

虽然我们难以对神经网络进行调试并理解其决策过程,但 NMT 所产出译文的流畅性明显提升,仅此一点就足以让我们考虑推广应用 NMT。那么,目前有没有其他机器翻译供应商能够提供 NMT?

答案是没有。目前有三种 NMT 系统可以在互联网上使用:Google Translate(可整合到任何计算机辅助翻译 [CAT] 工具中)、Microsoft Translator 和 Systran Pure Neural Machine Translation。然而,在具有完备训练工具组合的生产就绪型系统方面,我们公司略有领先。如欲了解相关详情,请关注微软、谷歌、Systran、百度、Facebook、亚马逊等公司有关即将推出的 NMT 系统的公告。

NMT 将首先应用于相较于 SMT 系统可获得明显质量提升的语言方向。Lionbridge 计划对现有的神经翻译系统进行评估,了解这些工具与我们本地化流程的适应程度及其如何帮助我们满足客户需求,然后再推广使用这些系统。访问我们的机器翻译前沿思想页面,了解有关 MT 的最新趋势。

但有一点是确定的:NMT 将颠覆行业格局。尽管 NMT 发展时间尚短,但它所实现的翻译质量改进远远超出过去 10 年的所有改进。传统翻译和机器翻译的差异将愈来愈小,对于未来机器翻译将取得的进展,我们拭目以待。

要详细了解 NMT 的优势以及我们对于机器学习发展前景的期望,请观看完整的网络研讨会:NMT:什么是 NMT 以及它如何影响翻译效率

linkedin sharing button
  • #blog_posts
  • #translation_localization

Lionbridge
作者
Lionbridge