Silhouette of a man wearing glasses. A geographic pattern is overlaid on half the image, and binary code is in the background of the other half of the image.

ChatGPT 的翻譯表現,以及這點將如何影響機器翻譯的未來

ChatGPT 與機器翻譯正面交鋒,表現令人印象深刻

機器翻譯 (MT) 的未來會如何?這是我們 Lionbridge 每天都在思考的問題。

在 2022 年,Google NMT、Bing NMT、Amazon、DeepL 和 Yandex 這些主流機器翻譯引擎,在品質表現上幾乎沒有什麼進展。從業界最悠久的 MT 追蹤工具,也就是我們的機器翻譯追蹤工具中,您就可以看出我們所言不假。這樣乏善可陳的表現,不禁使我們對目前的神經機器翻譯 (NMT) 典範產生了疑問。

  • NMT 這個典範是否已經達到頂點?
  • 如果這些引擎無法再有長足的進展,我們是否要改採新的做法?是否要有新的典範轉移? 
  • 新的典範又會是什麼?

我們認為,具備多模態及多語言等龐大內容量的大型語言模型 (LLM),可能會與未來的新典範有關。為什麼會這麼說?因為我們做了一項比較 ChatGPT 與 MT 引擎翻譯表現的開創性分析,所得的結果讓我們有了上述這樣的想法。

OpenAI 近日推出的 LLM,也就是 GPT-3 系列的 ChatGPT,翻譯表現雖然不如選定的 MT 引擎,但其實差距並沒有很大。它的表現可說頗為卓越,無疑地會影響到機器翻譯的未來。

為何可能會出現新的機器翻譯典範?

目前 MT 引擎的趨勢,給人似曾相識的感覺。

在統計式機器翻譯時代式微、但尚未被 NMT 取代之際,MT 輸出品質幾乎沒什麼變化;此外,不同 MT 引擎的輸出品質也漸趨相同。現在的情況也正是如此。

儘管 NMT 還不會馬上被取代,但如果我們相信指數成長和加速回報理論,再考慮到規則式 MT 為期 30 年和統計式 MT 盛行十數年的壽命,以 NMT 問世到目前進入第六年來看,或許不久之後就會出現新的典範轉移。

下一個機器翻譯典範可能會是誰?

LLM 在 2022 年的重要進展,使得這項技術有望在 2023 年涉足 MT 領域。

LLM 是訓練用來執行許多事情的通用模型。然而,我們也在 2022 年結束之際,觀察到有些專用或精心調整過的 LLM,在某些特定領域有著非常重要的進步。從這些發展來看,這項技術可能可以在做過額外一些訓練後,用以執行翻譯作業。

以 ChatGPT 為例,OpenAI 便精心調整了這個最新模型,讓它可以進行問答式的對話,同時又可執行通用 LLM 可以做的任何事。 

類似的事情也可能發生在翻譯領域,也就是精心調整 LLM 以便應用於翻譯。 

如何精心調整大型語言模型以便用於處理翻譯作業?

如果能用語言種類更為均衡的語料庫來訓練機器,那麼運用 LLM 執行翻譯的可能性會更高。 

GPT-3 的訓練用語料庫 93% 是英文,只有 7% 是來自所有其他語言的語料庫。如果即將推出的 GPT-4 能納入更多非英語的語料庫,相信 LLM 就能更妥善地處理多語言方面的問題,並因此在翻譯工作上有更好的表現。以這種語言種類更均衡的語料庫為基礎,就有可能建置精心調整的模型,進而專門用於處理翻譯。

這個以 LLM 為基礎的新 MT 典範假設,還有另一個值得注意的面向,就是多模態趨勢。我們可以用語言以及例如影像和視訊等其他訓練資料來訓練 LLM,這類訓練可以提供更多有關世界的知識,進而提高翻譯品質。

在筆電上打字的雙手特寫,其上還有幾何圖形。

大型語言模型會是神經機器翻譯典範之外的另一個好選擇嗎?

為了評估 LLM 取代 NMT 典範的潛力,我們將 ChatGPT 與我們機器翻譯追蹤工具中使用的五大主流 MT 引擎,就其翻譯表現進行了比較。

一如我們的預期,專業化 NMT 引擎的翻譯表現優於 ChatGPT。但令人驚訝的是,ChatGPT 的表現其實挺不錯的。如圖 1 所示,ChatGPT 的成果非常接近專業化引擎。

我們是如何評估 ChatGPT 跟常見 MT 引擎的品質?

為了評估引擎的品質層級,我們選用英文譯至西文這個語言組合的多個參考翻譯來計算編輯更動程度,又名反向編輯距離 (inverse edit distance)。編輯更動程度評量的是編譯人員為了取得與人工翻譯一樣的高品質結果,而對 MT 輸出做的編輯更動次數。在計算時,我們會將原始的 MT 輸出,與 10 個 (而非僅只一個) 不同的人工翻譯 (也就是多個參考翻譯) 相比較,所得的反向編輯距離越高,代表品質越好。

根據多個參考翻譯計算反向編輯距離,比較 ChatGPT 與主流機器翻譯引擎的自動翻譯品質。

圖 1. 根據英翻西這個語言組合的多個參考翻譯計算反向編輯距離,比較 ChatGPT 與主流機器翻譯引擎的自動翻譯品質。

ChatGTP 翻譯表現的評估結果為何值得我們注意?

我們這個比較分析所得的結果非常值得注意,因為這個通用模型是訓練用以執行許多不同的自然語言處理 (NLP) 任務,而不是像 MT 引擎那樣,訓練的目的只有翻譯這一種 NLP 任務。即使 ChatGPT 並沒有特別針對翻譯進行訓練,它的翻譯表現已經接近高品質 MT 引擎在兩、三年前的成績了。

歡迎閱讀我們的部落格,深入了解 ChatGTP 與本地化

大型語言模型會促使機器翻譯有什麼樣的發展?

從大眾的關注與科技公司對這個技術的大量投資,都可看出 LLM 的成長,因此我們應該很快就能知道,究竟是 ChatGPT 會超越 MT 引擎,還是 MT 將開始採用新的 LLM 典範。

MT 或許會以 LLM 為基礎,但針對機器翻譯微調這項技術。這會很像 OpenAI 及其他 LLM 公司目前的作法,也就是針對特定使用案例去改進他們的通用模型,例如讓機器能以對話聊天的方式與人類溝通。至於專業化則可進一步讓所執行的任務更加準確。

一個人和一個機器人互以食指伸向對方,幾乎快要碰觸到。

總的來說,大型語言模型的未來有何展望?

大型語言「通用」模型的一個好處,是它們可以執行很多不同的任務,而且多數時候都能提供卓越的品質。舉例來說,另一個通用智慧模型,DeepMind 的 GATO,便曾做過超過 600 種任務的測試,並在其中 400 種取得最先進 (SOTA) 結果。

這樣看來,將有兩個開發路線會繼續存在,一個是像 GPT、Megatron 和 GATO 這類通用模型,另一個則是以通用模型為基礎再針對特定用途加以專業化的模型。

通用模型對推進「通用人工智慧」(AGI) 非常重要,以長程來看甚至可望催生更令人期待的發展。專業化模型則能在短期內於特定領域中發揮實際功用。而 LLM 令人讚嘆的其中一點,就是它可以同時參與這兩個路線的發展。

機器翻譯若發生典範轉移,會有什麼影響?

隨著目前神經機器翻譯技術典範的發展逐漸到達極限,加上極具優勢、且很可能是以 LLM 為基礎的新機器翻譯技術典範浮上檯面,我們預期 MT 領域也會出現一些改變。大多數的效應會有益於公司企業,但對想實行人工翻譯的公司來說,應該會面臨額外的一些挑戰。

以下是我們對未來的看法:

品質提升

隨著技術進步,長久以來的一些問題,例如機器翻譯以及正式與非正式用語,以及其他跟語氣相關的品質問題,都可望獲得解決,因此機器翻譯的品質將會大幅躍進。LLM 甚至可能可以解決 MT 引擎最大的問題:對世界知識的缺乏。透過多模態訓練,便有可能達到這個目的。

除了龐大的文本外,技術人員還可以用影像跟視訊來訓練現代的 LLM。這類訓練能讓 LLM 擁有更多相關連的知識,進而有助機器解讀文本的意義。

內容產出量會提高,但一流譯者會供不應求

公司企業將能以更快的速度製作更多內容,但能翻譯這些內容的譯者資源成長速度,會趕不上這個內容創作的速度。即使 MT 有所改進且譯者生產力也會提高,翻譯社群仍舊將難以滿足這樣的翻譯需求。

機器翻譯採用率增加

隨著新技術典範的出現,以及機器翻譯品質的改善,對翻譯服務的需求將持續成長,會有更多情況及使用案例開始採用這個技術。

運用機器翻譯提升客戶體驗

MT 品質的改進,加上需要打造更貼近個人的客戶體驗,公司企業將會更頻繁地運用 MT 來增進全球客戶的數位體驗,建立更穩固的關係。

總結

許多科技公司都對 LLM 技術展現極高的興趣。Microsoft 就對 OpenAI 投資了 100 億美元,而 Nvidia、Google 和其他公司也大幅投資在 LLM 及 AI 技術上。

對於未來,我們非常期待,同時也將會繼續評估 LLM。歡迎關注這裡,掌握這個令人振奮演進的最新狀況。

與我們聯絡

若想了解 Lionbridge 如何能協助您充分發揮機器翻譯的效益,歡迎立即與我們聯絡

linkedin sharing button

作者
Rafa Moral
  • #translation_localization
  • #ai
  • #generative-ai
  • #blog_posts