A person’s arms reaching toward circular geometric shapes

根據機器翻譯評估,一款生成式 AI 模型的表現勝過神經機器翻譯引擎

這會是神經機器翻譯典範開始走向結束的里程碑嗎?

在我們的機器翻譯 (MT) 比較評估中,首次出現生成式人工智慧 (AI) 模型提供的翻譯,勝過某神經機器翻譯 (NMT) 引擎翻譯的情形。更明確地說,大型語言模型 (LLM) GPT-4 在英文譯至簡中這個語言組合上,表現略微勝過 Yandex 的輸出。

這個發展會有什麼樣的影響,非常值得探討。

如果這是個徵兆,表示神經機器翻譯典範已到盡頭或產生劇烈變化,那麼我們也可以預期機器翻譯的交付將有所轉變,例如翻譯品質躍升、受到更廣泛的採用,以及能推出更多內容等。

MT 供應商必須站在技術變革的最前線,並思考這將會如何影響他們目前的 MT 引擎,以便推出充分善用技術進展的服務。而想要做出明智投資決策的 MT 採購者,就必須掌握一些採用 LLM 的新技術 (而非單純的神經機器翻譯服務),進而做出明智的投資決定。

LLM 表現勝過神經 MT 引擎輸出:這是否意義重大?

儘管這項評估的結果是個大突破,我們還是要換個角度思考其中的意義何在。這只是一個模型在一個語言組合上的表現,該 LLM 只是在採用多個參考翻譯這一種 MT 評估類型中,表現勝過五個 NMT 引擎的其中一個罷了。這樣的成績依然算是很厲害嗎?當然是。

從上述的背景來看,這次的發現似乎無關緊要,但其實仍舊值得我們注意,因為自 NMT 問世以來,這是頭一次有其他類型的 MT 方法勝過神經 MT 引擎的輸出。除此之外,表現勝過 NMT 引擎的是一個「非 MT」的方法,它不是專為機器翻譯所設計的,而是個多用途的語言自動化功能。而最後這一點,正是 GPT-4 大型語言模型勝過某 NMT 引擎之所以值得關注的原因。

ChatGPT-4 這個令人關注的翻譯結果,對神經機器翻譯典範具有什麼意義?

自 2022 年 2 月以來,我們便公開提出質疑,認為可能在不久的未來就會發生 MT 典範轉移。若想深入了解這段期間我們對這個議題的想法,歡迎參閱我們的機器翻譯追蹤工具評論。這些近期的比較結果,也更加證明了劇烈的變化可能即將來臨。

但我們也先別這麼快下定論。說大型語言模型 (LLM) 將會取代 NMT 引擎實在言之過早,更別提馬上會有這樣大的改變。我們需要更多時間來評估更多資料。除了有太多因素需要考量,另外一方面,LLM 技術也必須要有長足的進步,才有可能成為可供企業採用的翻譯解決方案。

由於 NMT 和 LLM 技術有些共通之處,因此典範改變很可能會從 NMT 引擎採用部分 LLM 做法開始。

A woman gazing down, smiling

其他三種語言組合的 NMT 和 LLM 翻譯輸出比較結果為何?

讓我們比較一下五大神經機器翻譯引擎與一些 GPT 模型在其他三個語言組合上的翻譯結果。

我們是使用多個參考翻譯來計算反向編輯距離,用以比較以下語言組合的品質:英譯簡中 (EN-ZH)、英譯西 (EN-ES) 以及英譯德 (EN-DE)。

編輯更動程度評量的是編譯人員為了取得與人工翻譯一樣的高品質結果,而對 MT 輸出做的編輯更動數字。在計算時,我們會將原始的 MT 輸出,與 10 個 (而非僅只一個) 不同的人工翻譯 (也就是多個參考翻譯) 相比較,所得的反向編輯數字距離越高,代表品質越好。

從圖 1 可看出,NMT 引擎和 LLM 之間在反向編輯距離上的差別並不大,亦即它們的表現相差無幾。然而,值得注意的是,在英譯簡中這個語言組合上,大型語言模型 GPT-4 的翻譯品質略高於 Yandex NMT。

GPT 模型與主流神經 MT 引擎的自動翻譯品質比較:英譯簡中語言組合

英譯西與英譯德這兩個語言組合的翻譯結果比較,則分別顯示於圖 2 與圖 3。在這兩個情境中,所有神經 MT 引擎的表現都優於 LLM,這點從以前到現在都一樣。

此外正如我們所預期,GPT-4 的表現勝過 ChatGPT 和 GPT-3,也就是說 GPT 模型越好,MT 結果也越好。

GPT 模型與主流神經 MT 引擎的自動翻譯品質比較:英譯西語言組合
GPT 模型與主流神經 MT 引擎的自動翻譯品質比較:英譯德語言組合

我可以信賴大型語言模型,用它進行專業翻譯嗎?

生成式 AI 還在開發的初期階段,尚未完全且充分地發展。也因此,它在一些重要領域上仍舊非常不足。我們在 ChatGPT 與本地化白皮書中,便特別指出了這項技術的缺點,例如無法陳述事實、不了解真實的世界,以及不能計算等。想要靠它處理翻譯嗎?最好再等等。

以下這些缺點,應該能讓企業停下腳步深思一番。

一個看著多個螢幕的人的輪廓

變異性

我們的評估證實了 GPT 輸出是變動的,換句話說,每次的執行結果都可能不一樣。在圖 2 和圖 3 便可以看到這種現象,執行一跟執行二的結果就不同。

我們已預期會有這樣的結果。儘管如此,在權衡是否要將 LLM 應用於專業翻譯時,這樣的變異性便會是個重要的考慮因素,因為對專業翻譯來說,可預測性非常重要。

企業在翻譯內容時,往往沒有什麼餘地容忍這種不規則性,MT 輸出一定要比生成式 AI 目前產出的結果更加確定。人們使用專業 MT 以及其他用於專業用途的 LLM 時,通常會期待能享有一致性。

完全可預測的確定結果,跟生成式模型的本質其實是相衝突的,因為在某種程度上,人們認為這個技術應該要具有「創意」或變異性。這種狀況對特定案例而言是可接受甚至令人滿意的,但卻無法推及到所有案例。因此,設置機制來控制變異性 (不僅只是使用「語境溫度」(Temperature) 這個用來控制 LLM「創意」程度的設定),就顯得非常重要。

至於哪一種做法才是控制生成式模型變異性最好的方法,目前尚未有定數。使用者或許可以透過一些預先定義好的提示以及執行特定工作的設定組合,來解決這個問題。但說到底,還是需要有更為具體的解決方案。

不過缺乏可預測性這一點,就已經難以配合許多商務應用程式使用。

API 不穩定性

另一個 LLM 目前的問題,便是應用程式開發介面 (API) 不夠穩定。

多數的生成式 AI 應用都還在開發的早期階段,然而龐大的需求,導致其 API 的使用量大增。所有這些因素結合在一起,也導致問題發生。這種情況非常明顯,因為與其他更為成熟的技術相比,人們在新技術的這些應用上更容易遇到問題。

錯誤

我們發現,LLM MT 輸出中會發生的正確性問題,要不是並不見於 NMT 輸出中,就是發生的比例遠低於前者。

這些問題包括幻覺,也就是捏造字詞或出現原文中沒有的字詞,以及一致性問題,也就是文本內的一致性問題 (像是以文法陰性的形容詞或限定詞搭配文法陽性的名詞,反之亦然)。

如表 1 所示,LLM 在翻譯時,於西班牙文譯文中使用了少見且可能過於口語的字彙「marketeros」。正確的翻譯應該要使用「responsables del marketing」。在德文及簡中的譯文中,LLM 也犯了類似的錯誤。因此,一定要監測是否有 MT 重大錯誤,否則視錯誤的嚴重程度而定,品牌可能會在聲譽、財務或法律上面臨極其嚴重的後果。

表 1:LLM MT 輸出中出現「捏造」或「幻覺」字詞的例子:

原文 As marketers, we all aspire to surprise, delight, and connect to a global and thriving culture.
譯文 Como marketeros, todos aspiramos a sorprender, deleitar y conectarnos con una cultura global y próspera.
評論 應該是:“responsables del marketing“
原文 Tax on interest, discounts & other items of gross income paid to finance companies & other financial intermediaries not performing quasi-banking functions
譯文 Steuer auf Zinsen, Rabatte und andere Posten des Bruttoeinkommens, die an Finanzunternehmen und andere Finanzintermediäre gezahlt werden, die keine quasibankähnlichen Funktionen ausüben.
評論 應該是:"Vermittler" 和 "bankähnlichen"
原文 See how Honda used Twitter's Instant Win feature for a good cause while also earning lifts in purchase intent and brand favorability.
譯文 看看本田如何利用推特的即时赢取功能为一个好事业赢得提升,同时也获得购买意向和品牌可喜度的提升。
評論 應該是:"公益事业" 和 "好感度"
表 1:LLM MT 輸出中出現「捏造」或「幻覺」字詞的例子:
語言 原文 譯文 評論
英譯西 (EN-ES) As marketers, we all aspire to surprise, delight, and connect to a global and thriving culture. Como marketeros, todos aspiramos a sorprender, deleitar y conectarnos con una cultura global y próspera. 應該是:“responsables del marketing“
英譯德 (EN-DE) Tax on interest, discounts & other items of gross income paid to finance companies & other financial intermediaries not performing quasi-banking functions Steuer auf Zinsen, Rabatte und andere Posten des Bruttoeinkommens, die an Finanzunternehmen und andere Finanzintermediäre gezahlt werden, die keine quasibankähnlichen Funktionen ausüben. 應該是:"Vermittler" 和 "bankähnlichen"
英譯簡中 (EN-ZH) See how Honda used Twitter's Instant Win feature for a good cause while also earning lifts in purchase intent and brand favorability. 看看本田如何利用推特的即时赢取功能为一个好事业赢得提升,同时也获得购买意向和品牌可喜度的提升。 應該是:"公益事业" 和 "好感度"

如表 2 所示,在翻譯至所有三種目標語言時,LLM 都會發生文法一致性或字元方面的錯誤。舉例來說,它在結果中使用了西班牙文「other」一詞的陰性形式,但其實陽性才是正確的。這類錯誤可能有損消費者對品牌的信心。

表 2:文法一致性和字元錯誤的例子。

類別 文法一致性錯誤
原文 The centre for urban culture is one of the best concert venues in the city and regularly hosts the most famous performers of indie rock, electronic music, metal and other genres of modern urban music.
譯文 El centro de cultura urbana es uno de los mejores lugares de conciertos de la ciudad y regularmente acoge a los artistas más famosos del rock independiente, la música electrónica, el metal y otras géneros de música urbana moderna.
評論 應該為陽性 (“otros”)
類別 文法一致性錯誤
原文 Do not use harsh chemicals, cleaning solvents, or strong detergents to clean the programmer and wand.
譯文 Verwenden Sie keine aggressiven Chemikalien, Reinigungslösungsmittel oder starken Reinigern, um den Programmierer und den Stab zu reinigen.
評論 應為不定受格 ("Reiniger")
類別 書寫體錯誤
原文 Handle the fiber with care as damage may occur if struck or bent sharply.
譯文 小心處理纖維,因為如果受到撞擊或急劇彎曲可能會損壞。
評論 繁體中文字
表 2:文法一致性和字元錯誤的例子。
類別 語言 原文 譯文 評論
文法一致性錯誤 英譯西 (EN-ES) The centre for urban culture is one of the best concert venues in the city and regularly hosts the most famous performers of indie rock, electronic music, metal and other genres of modern urban music. El centro de cultura urbana es uno de los mejores lugares de conciertos de la ciudad y regularmente acoge a los artistas más famosos del rock independiente, la música electrónica, el metal y otras géneros de música urbana moderna. 應該為陽性 (“otros”)
文法一致性錯誤 英譯德 (EN-DE) Do not use harsh chemicals, cleaning solvents, or strong detergents to clean the programmer and wand. Verwenden Sie keine aggressiven Chemikalien, Reinigungslösungsmittel oder starken Reinigern, um den Programmierer und den Stab zu reinigen. 應為不定受格 ("Reiniger")
書寫體錯誤 英譯簡中 (EN-ZH) Handle the fiber with care as damage may occur if struck or bent sharply. 小心處理纖維,因為如果受到撞擊或急劇彎曲可能會損壞。 繁體中文字

結論:這會是 NMT 典範結束的開端嗎?

這並不是 NMT 典範結束的開端;正如前文所述,NMT 技術已臻成熟、同時可能會發生 MT 典範轉移的徵兆,其實早已出現一段時間了。我們現在正繼續走在通往終點的道路上。

圖 4 顯示的是 2018 年 5 月到 2022 年 12 月之間,使用反向編輯距離評估五大 NMT 引擎在德文、西班牙文、俄文和中文的輸出品質。從圖中可以看出,五大 NMT 引擎的品質表現一直持平,沒有什麼大幅進展。我們注意到這個現象後,便開始懷疑這個典範目前的主導地位,是否已然來到終點。

神經 MT 引擎的表現

NMT 在 2022 年沒有什麼太大的品質進展,使我們認為它已經達到頂點,因為前一個重要的 MT 典範,也就是統計式典範,在結束前也出現類似的情形。Lionbridge 的機器翻譯追蹤工具是業界歷史最悠久的主流 MT 引擎評估工具,能針對五大 NMT 引擎的表現提供更多深入見解。

雖然近日生成式 AI 模型在翻譯品質上的進步,可能會使 NMT 典範加速走向終點,但前者還有很長的一段路要走。

值得注意的是,生成式 AI 的應用都還在開發的早期階段。諸如前文所強調的那些問題,都必須要加以解決,而且業界也正在著手解決。我們已經看到他們以驚人的速度做出不少進展。在我們對 ChatGPT-4 所做的最新測試中,部分問題就已獲得修正。LLM 驚人的進步速度也讓這樣的論點更具說服力:LLM 將會成為機器翻譯的下一個典範。

我們認為更可能的情況,是神經 MT 供應商會將 LLM 的一些層面整合至 NMT 架構中,而不是隨著 LLM 典範的演進而整個取代目前的典範。在 MT 業界從規則式 MT (RBMT) 無縫接續至統計式 MT (SMT) 的時候,也曾經歷過類似的混合使用時期。

譯者對生成式 AI 的翻譯表現感到印象深刻嗎?

翻譯人員覺得生成式 AI 如何呢?有鑑於這個技術目前的缺點,負責比較神經 MT 引擎與 LLM 表現的評估人員,均表示他們覺得神經 MT 的輸出比 LLM 的輸出來得好。所有的評估人員都表達出這樣的偏好,連那些評估簡中輸出的人員也不例外。

生成式 AI 會繼續演進,這一點毫無疑問,而面對這些快速的變化與進展,我們也會協助您隨時掌握最新趨勢。

與我們聯絡

歡迎閱讀我們的部落格文章,深入了解我們對 ChatGPT 翻譯表現的看法,以及它對本地化的未來有何意義。

若想進一步探索 Lionbridge 如何能協助您有效地善用機器翻譯,歡迎立即與我們聯絡

linkedin sharing button

Rafa Moral 與 Janette Mandell
作者
Rafa Moral 與 Janette Mandell
  • #translation_localization
  • #ai
  • #generative-ai
  • #blog_posts