線上研討會
增進臨床試驗研究中的包容性:COA 開發與翻譯
Lionbridge TRUST 架構
建立對 AI 應用的信任
生成式 AI
- AI 翻譯服務
- Content Remix
AI 訓練
- Aurora AI Studio™
機器翻譯
- MT 追蹤工具
Smart Onboarding
翻譯服務模式
內容服務
- 技術文件編寫
- 訓練與線上學習
- 財務報告
- 數位行銷
- SEO 與內容最佳化
翻譯服務
- 影音內容本地化
- 軟體本地化
- 網站本地化
- 受監管公司適用的翻譯服務
- 口譯
- 即時口譯
- 現場活動
- Lionbridge Language Quality Services
測試服務
- 功能品管與測試
- 相容性測試
- 互操作性測試
- 效能測試
- 輔助使用性測試
- 使用者體驗 / 客戶體驗測試
選擇語言:
生成式人工智慧 (GenAI) 與大型語言模型 (LLM) 技術到底是什麼?GenAI 及 LLM (像是 ChatGPT) 會為翻譯與本地化帶來什麼衝擊?您又能如何運用 LLM,推動全球內容工作流程更上一層樓?
Lionbridge 的產品暨開發團隊主管 Vincent Henderson,在生成式 AI 與大型語言模型研討會系列的第一場會議中,便針對上述這些問題提出他的看法,並進行了更深入的探討。
如果您錯過了這次線上研討會,歡迎自行選擇時間觀看研討會的影片。
時間不夠看完整場研討會?可以先閱讀本文,了解 Vincent 在線上研討會談論的一些議題。
生成式 AI 與 LLM 都是人工智慧 (AI) 引擎,這些引擎從網際網路龐大的語料庫學習了人類撰寫文本的方式。因此只要提供輸入資料,它們就能根據自己的訓練內容,以最可能的接續文字完成整段文本。
這些技術以新 AI 為基礎,運用它們從龐大資料中所知的一切,來判斷最適合輸出的內容。
判斷什麼是最可能接續前文的輸出文字,這種能力雖然看來平凡又瑣碎,但事實上卻是非常複雜的工作。在接收到輸入文本時,模型要能全面性地解析文本,找出它在整個語言地圖中最適切的歸屬,才能產出輸出文本。也就是說模型要能判斷出提示和訓練語料庫中最重要的元素,以及該注意哪些地方。
也因此,LLM 也展現了一種不可思議的能力,可以產出看來像是人類所創作的文字內容。這個技術似乎能夠理解我們的意圖,並像我們一樣地思考與行事。
根據其訓練與學習的內容,例如 ChatGPT 等 LLM 可以做以下事情:
要了解 ChatGPT 這類 LLM 對翻譯與本地化為什麼大有助益,就得先探討使用神經機器翻譯 (NMT) 進行自動翻譯的一些挑戰。
時至今日,有許多公司會仰賴機器翻譯 (MT),這種高度專業化的大型語言模型經過最佳化,最適合用來處理一連串的文字並判斷相應的翻譯。對於使用常見 MT 引擎的公司來說,這類引擎的產出結果雖然差強人意,但可以透過使用數以萬計的相關資料來訓練和微調引擎,進而改善輸出成果。
但這些工作所費不貲,而使用 MT 引擎的企業必須持續在每次展開新措施時 (例如新產品上市或行銷工作),判斷他們是否值得花費心力重新訓練引擎。
相反地,LLM 引擎由於原本就已具備極為龐大廣泛的知識,所以僅需幾個範例就能了解公司的期望,同時還能將學得的知識應用在新的工作上。也因此,您不必提供大量特定任務相關的資料對模型進行訓練,也能藉由更加精簡的情境感知提示獲得所需的翻譯結果。
然而,在撰寫本文時,具有這些功能的 LLM 承受了沉重的市場需求壓力,同時也難以應付與消化大規模本地化龐大的內容量。雖然這種情況未來會解決,但到底何時能實現,卻還是未定之數。
在初始翻譯的表現上,LLM 與 MT 引擎又有何差異?Lionbridge 以一個英文句子,比較了主流 MT 引擎與 GPT 模型在英譯簡中、英譯西和英譯德的翻譯品質。
一般而言,GPT 的表現還比不上目前最優異的 MT 引擎。但 LLM 就快要迎頭趕上了。如圖 1 所示的這個例子,GPT-4 在英譯簡中這個語言組合上,表現便略勝於 Yandex MT 引擎。
如要查看其他不同領域和語言的引擎表現比較結果,歡迎前往 Lionbridge 機器翻譯追蹤工具這個業界歷史最悠久的自動翻譯整體表現評量工具。
如果沒有明確指示,LLM (例如 GPT) 所產出的翻譯往往會比主流 MT 引擎產出的結果更有本土化色彩。這種做法可能會與專業譯者的做法大相逕庭,有時更會被視為是錯誤。此外,GPT 有時也會自創或編造新詞或新的表達方式,這也是譯者會避免的做法。
讓 LLM 使用特定的術語並不難,只需要求它們這麼做就行了。但另一方面,要讓 MT 引擎納入術語則得花費更多心力,包括訓練 MT 引擎,或是在 MT 引擎之上建置上層架構,將術語引進結果或來源中。但這種方式通常會產生搭配詞或一致性方面的問題。
由於 GPT 的語言意識非常高,因此很少會發生例如前後用語一致性等語言方面的錯誤,而且通常可以應要求自我修正。
LLM 可說多才多藝。您不但可以利用 LLM 改善目標文本,也可以利用它們改善來源文本。此外,還可進行許多種分析,像是瀏覽頻率、數量與時間長短等量化分析,以及質性評估與自動改善。您也可以要求 LLM 以特定方式執行工作,產出您所需的結果。
您可以使用 ChatGPT:
妥善運用 LLM,可以讓內容更容易閱讀,更方便目標對象理解。而改善來源文本並減少字數,更有助降低您的本地化成本。
您可以像要求專業譯者的處理方式,要求 LLM 為翻譯進行譯後編修。而 LLM 能做好譯後編修的工作嗎?一項分析便發現,它能把將句子修飾至定稿品質 (也就是編輯距離) 所花費的心力,從 48% 大幅降低到 32%。另外,它也能找出例如多餘的空格等錯誤、建議更好的用字遣詞,以及透過改寫改善目標文本。
生成式 AI 將會徹底改變多語言內容的工作流程。而 Lionbridge 能提供與這些變革相關的服務。
LLM 生成多語言內容的能力,無疑是自翻譯記憶庫 (TM) 問世以來對本地化產業最大的衝擊。
如何讓 LLM 從無到有地生成多語言內容?首先,提供資訊給 LLM,接著要求它產出衍生內容,並從頭開始生成多語言內容。
在詢問 LLM 有關真實事物時,它們很容易會產出所謂的幻覺內容;但公司可以要求 LLM 根據您的既有資料來生成產品說明、推特貼文以及其他素材,進而避免生成幻覺內容。
在以往,全球內容工作流程只要是基於兩種不同的工作流程:一個是於在地製作內容的流程,另一個則是全球製作內容的流程。在使用 LLM 時,您並不是先僱用寫作人員以來源語言撰寫內容,然後再展開本地化流程來製作衍生內容,而是以您所需的所有語言產出衍生內容,然後再由各個語言 (包括您的國家/地區語言) 的譯後編修人員對文本進行譯後編修。
Lionbridge 擁有龐大的譯者群,因此更能勝任這項工作:根據生成的多語言內容提供多語言譯後編修服務。
要使用 LLM 生成多語言內容,就需要進行提示工程,但這個過程不但耗時,而且往往得在錯誤中反覆嘗試。協助公司建置合適的提示,是本地化產業新興的一種服務,也是 Lionbridge 能從旁協助的領域。
Lionbridge 具備後端開發能力,可協助客戶更簡便地使用 AI,以及規劃用以做為範例和提示的內容類型,進而使客戶能自行執行多語言生成式 AI 措施。
GPT 可以修改語言資產,例如翻譯記憶庫 (TM) 和文體風格規則等。
Lionbridge 的一個客戶希望能以比過往更為經濟實惠的方式,依據他們的要求調整語氣和文體風格,因此我們便使用 GPT-4,將客戶的整個法文翻譯記憶庫 (TM) 修改為非正式用語。
這個範疇是藉由運用 LLM,從而更輕易、更快速地以更低廉的成本進行譯後編修,最終讓整個翻譯工作流程更有效率、更具成本效益。
本地化工作流程的改進,也使得公司更有可能達成無譯不做的目標。
LLM 將會嚴重衝擊本地化,隨著時間過去,工作流程將會被抹平。
企業將不再會採用多個不同的在地與全球工作流程,而是能夠定義內容目標、規劃內容,然後立即以多種語言生成內容。
新科技的出現往往會引發憂慮,使人們害怕有些工作會因此消失,但 Lionbridge 並不擔心 LLM 可能會讓語言服務供應商 (LSP) 或譯者需求走入歷史。
使用 LLM 生成多語言內容的公司,依舊會需要請領域相關專家來審閱機器輸出的內容。對機器翻譯來說,就是所謂的譯後編修,但未來對這類工作,則可能會有其他的稱呼。
「整個語言產業都必須要能因應 LLM 帶來的挑戰。這很令人振奮。LLM 技術可處理的使用案例將呈爆炸性增長,而這點十分值得我們期待。」
— Lionbridge 語言服務產品主管 Vincent Henderson