Lionbridge 的 TRUST 框架
建立对 AI 应用的信任
选择语言:
随着几十年的发展,机器翻译 (MT) 取得了惊人的成果,大型语言模型 (LLM) 的发展更是让公众和语言服务界再一次振臂欢呼。
近年来,人工智能 (AI) 已充分融入新时代,生成式 AI (GenAI) 成为热门的新兴领域,吸引着众多行业的关注。无论您与 MT 这一概念有着怎样的联系,都需要对它有所了解。
随着企业和消费者越来越多地接触到 AI 应用,一大批相关术语应运而生。如果您不是业内人士,面对这些有时可互换使用的术语,您如何辨析个中差异?
如何了解 MT?
我们可以为您提供帮助。Lionbridge 在全球拥有一批经验丰富的 MT 专家。我们与这些专家合作编写了这份术语速查,旨在帮助您了解一些推动该行业发展的术语之间的细微差别和明显差别。
要了解 MT 的最新趋势,您首先需要熟悉这些趋势的诞生背景:功能强大而令人振奋的人工智能 (AI)。AI 的“智能”体现在机器能够执行那些通常被认为需要人类思维才能完成的任务,例如学习和解决问题。近年来,日益强大的计算能力大大推动了 AI 的发展。越发强大的计算机不仅带来了更加出色的任务处理能力,还催生了更加先进的机器学习技术,而正是通过该技术,计算机才能获得 AI 应用所需要的知识。
机器学习 (ML) 是计算机科学的一个分支,利用大量数据来训练计算机执行任务。ML 能够评估与特定任务相关的数据,找到这些数据中的规律,建立这些规律之间的联系,然后根据这些新发现形成计算机执行任务的方式。如果在上述分析之后,计算机能够更好地执行任务,那么 ML 就奏效了。
由于我们拥有包罗万象的海量数据,因此能够使用 ML 来改进计算机在各个领域的表现,无论是天气预报、自动选股,还是 MT。
简而言之,MT 是一种自动化翻译。当您将一种语言的源材料提供给计算机后,计算机可将其翻译为另一种语言的结果返回给您。MT 技术并非尽善尽美,但它是一种强大利器,可帮助我们更高效地生成优质译文。
在过去几十年中,MT 的译文质量有所提升,支持的语言种类也有所增加。从 MT 刚出现时的简单词汇替换系统,到基于规则的 MT 的显式编码语法和词汇,到统计 MT 的数字运算范式,再到神经网络 MT 的深度学习和神经网络,最后到现在 GenAI 能输出与人类创作无异的内容,MT 的发展反映出我们对计算机的使用越来越得心应手。
统计机器翻译 (SMT) 利用 ML 为特定源语句生成大量候选译文,然后根据词汇和短语在目标语言中共同出现的可能性,选择最佳译文。SMT 通过“n-gram”(即源语言和目标语言中一段段组合在一起的词汇)的视角来学习翻译。在 ML 阶段,会为 SMT 系统提供训练材料,即,许许多多的源语言语句以及翻译为目标语言的译文示例。学习算法将源语句和目标语句划分为多个 n-gram,并确定某个源语言 n-gram 出现在语句中时,哪些目标语言 n-gram 可能出现在译文中。
然后,学习算法会构建一种语言模型,后者能够计算特定词汇和短语在目标语言中相邻出现的可能性。完成学习后,需要翻译新材料时,SMT 系统会将新的源语句分解成多个 n-gram,找到高度相关的目标语言 n-gram,然后生成候选语句。最终的译文是符合以下条件的语句,即目标语言 n-gram 与源语句的 n-gram 具有最大相关性,且其目标语言的词汇极有可能共同出现在目标语言中。
SMT 的翻译效果令人惊喜,毕竟 SMT 系统不具备语言能力。其实,该系统只会分析 n-gram,而从不考虑完整的语句。这一点不同于新兴的 MT 方法:神经网络机器翻译。
神经网络机器翻译 (NMT) 克服了 SMT 最大的缺点:需要依赖 n-gram 分析。NMT 赋予了机器更强的学习能力。像在 SMT 环境中一样,系统会接收训练材料,但有一个根本区别:系统在收到材料后,会自行决定如何尽可能多地学习有关该数据的信息。
NMT 系统会为每个源语句构建信息向量,同时通过相邻的词汇将有关每个词汇的信息关联起来。某些系统能够为每个词汇生成数百条信息,因此译文的准确性较高。通过深度学习,NMT 系统会获取有关每个词汇和源语句的大量信息。然后,利用注意力模型来仔细研究关键特征,这些关键特征是通过分析海量数据流了解到的,而且对于翻译流程非常重要。这样就获得了流畅度明显提高的译文,也就是说,计算机生成的译文读起来开始变得越来越自然。
NMT 在我们的行业中具有颠覆性的意义。随着可用工具集日趋成熟,再加上技术不断改进,我们将更多地利用 MT 加快生产流程。到 2022 年,主流 NMT 引擎的翻译质量未有大幅提升,预示着这种范式即将结束,为蓄势待发的颠覆性变革创造了条件。
生成式 AI (GenAI) 是一种 AI 系统,可以在接受全面的多模态训练后,根据给出的提示生成包括文本和图像在内的全新内容。它的显著特点是输出内容的质量与人类创作水平几乎无差异。大型语言模型 (LLM) 是一种以语言为核心的 AI 系统。它可以从大型数据库中获取知识,并据此总结、翻译、预测和生成文本。尽管这种系统并未专门针对文本翻译任务进行过训练,但它能够进行翻译且质量尚可(不过还有改进空间),并且该技术本身也在快速改进。2022 年 11 月,ChatGPT 成为首个进入主流的 LLM,并且在发布后短短两个月内便吸引了一亿用户。
随着功能不断发展,GenAI/LLM 技术将越来越多地用于解决重复的核心语言活动。我们预计它将在以下三个领域为人类从事更高价值的活动创造空间:
创译等具有更高价值的服务将不再成为公司的经济负担,因而品牌能够创作出更能引起买家共鸣、对不同国家/地区的买家来说更令人信服的内容。Lionbridge 正在确定 GenAI 的应用场景,并正在开发可充分利用 LLM 全部功能的应用,以便进一步实现本地化工作流程的自动化。
大型语言模型机器翻译 (LLM MT) 是指使用 LLM 进行机器翻译。LLM MT 可能最终会取代 NMT 范式,但这项技术目前尚不成熟。LLM 可以生成优质的输出,在 Lionbridge 对英中语言对进行的一项评估中,OpenAI GPT-4 模型的表现甚至超过了 Yandex NMT 引擎。但截至本文撰写时,LLM 在速度、质量和成本可负担性上不及五大主流 NMT 引擎,因此不适合取代后者。Lionbridge 通过 Lionbridge Machine Translation Tracker 监测 LLM MT 的表现。该工具目前正在评估多个 LLM,包括 GPT-4 机器翻译。
人工介入的 AI 翻译是指人工和机器合力提供您需要的译文成果。
尽管 GenAI/LLM 提高了翻译的效率和成本效益,但人工介入仍然必不可少,原因如下:
人类可以通过以下几种方式克服 LLM 带来的几个重要问题并增加价值:
人工整体审阅译文,这对于保持内容的一致性尤为重要。将提示控制在几百个单词范围内时,GenAI/LLM 的表现最佳,但这一限制常常导致译文出现大量不一致。
人类将各个项目类型的多个术语表和翻译说明整合为一系列提示,使品牌形象保持一致。
人类生成提示是 GenAI/LLM 有效发挥作用的第一步,也是一项关键要求,单凭技术自身无法实现这一点。
人类创建复杂巧妙的专用平台来整理大量提示,重复利用提示并根据需要插入翻译说明和术语,以达到期望的译文质量。Lionbridge 设计并发布了一个提示迭代平台,以重复利用和迭代有效的提示。
人类决定如何将 LLM 技术整合到现有工作流,利用翻译记忆库 (TM) 和 NMT 协同作用,从而节省时间,减少工作量并降低成本。Lionbridge 拥有一支专职 AI 团队,能够出色地将 LLM 有效融入到现有工作流。
我们渴望倾听您的需求,并向您展示我们的创新功能如何助您冲破藩篱、拓宽全球舞台。期待探索新机遇?我们随时待命,愿助您扬帆启航。