Finger points to circular rings

運用術語改善機器翻譯

執行優異的術語管理,有助您提升機器翻譯輸出的品質

隨著越來越多專業人士和一般大眾開始使用免費的常見機器翻譯 (MT) 系統,大家都必須了解一件事,那就是這些引擎可能會產出有錯誤的翻譯。品質不佳的翻譯或重大錯誤,可能會對業務造成嚴重的不良影響。但您可以透過一些方法增進 MT 品質,其中一種作法就是執行有效的 MT 術語管理。

機器翻譯在術語這方面有哪些挑戰?

由於術語單元的表述與實際概念之間有著錯綜複雜的關係,因此術語仍是機器翻譯的一個棘手難題。

將免費的 MT 系統應用在特定領域上時,在術語方面尤其可能會產生不如人意的結果,如果是醫療或法律領域,更有可能因此造成嚴重的傷害。

雖然用特定領域的語料庫來訓練 MT 系統,可以在一定程度上避免產出不佳結果,但只要是使用常見 MT 系統,就很難保證術語的一致性或正確性。

決定 MT 引擎翻譯品質的其中一個因素,就是用以訓練的雙語語料庫品質。因此,只有當語料庫中來源及對應的目標語料都使用了正確的相關詞彙,術語的翻譯才會正確無誤。

雖然神經機器翻譯 (NMT) 系統是根據詞語的機率分佈生成翻譯,但詞語存在這個必要條件,仍不足以確保產生高品質的翻譯。詞彙在語料庫中出現的頻率,必須足以讓解碼器得到確切的對等詞彙。如果某個詞彙出現的頻率不夠高,就無法獲得足夠的權重,系統便不會將其視為對等詞彙的候選結果,也就無法正確地翻譯。

一隻手伸向含有許多人像照片的球體

常見 MT 的訓練為何會導致錯誤的翻譯?

常見 MT 系統通常是使用混雜了各式各樣內容的龐大語料庫來進行訓練,因此在翻譯詞彙時,頻率最高的候選詞彙及其可能的對等詞彙,有時會分屬完全不同的領域。這種情況很容易導致詞彙在翻譯至目標語言時發生錯誤。

舉例來說,西班牙文的 fósforo 翻成英文時可以是 match (火柴) 或 phosphorus (化學元素燐),而常見 MT 引擎可能無法輕易區別原文的意思,進而導致翻譯錯誤。

解決這個問題的辦法,就是以含有特定領域專門術語的雙語文本,來訓練客製化的 MT 系統。

但是,如果在訓練引擎用的專門文本中,使用的術語並不一致,那麼也還是無法保證能產出正確的翻譯。

市面上有哪些解決方案?

這個領域的相關研究建議,可以透過註解的方式將語言學資訊輸入 NMT 系統中。

至於要以人工還是半自動的方式實行註解,則取決於可用資源 (例如詞彙表) 以及限制條件 (例如時間、成本及可用註解人員等) 而定。

Lionbridge 能提供什麼解決方案?

使用 Lionbridge 的 Smart MT™,您不但可以設定語言規則並套用至來源與目標文字,也可以將「請勿翻譯」(DNT) 及詞彙表清單加入特定的設定檔,再據此進行術語管理。

我們會協助客戶建立與維護詞彙表,並定期調整以加入新的相關詞彙和汰除過時的術語。此外,只要在 Smart MT 建立詞彙表,就能將它們使用於所有的 MT 引擎,進一步節省時間與金錢。

如何充分發揮 MT 專案的詞彙表使用效益?

在 MT 專案中使用詞彙表,並不像表面看來那麼簡單。詞彙表如果使用不當,反而會對機器翻譯的整體品質造成負面影響。如果希望 MT 生成的翻譯能使用所提供的術語,最好的作法就是透過 MT 訓練。

訓練 MT 引擎、客製化詞彙表,再加上制訂前處理及後處理的規則,將有助確保 MT 輸出使用正確的術語,並展現與客戶文件相近的風格。

在黑色背景上有著許多圓點及立方體

在挑選機器翻譯解決方案時,應注意要具備哪些術語管理功能?

在評估機器翻譯解決方案中的術語管理功能時,建議了解該解決方案是否能夠:

  • 管理詞彙表
  • 管理「請勿翻譯」(DNT) 清單
  • 管理建議和核准的翻譯
  • 透過匯入詞彙表及翻譯記憶庫 (TM),大量上傳詞彙與句子
  • 建立領域或產品專屬的 MT 引擎設定檔,並自動在這些引擎間轉送內容

這些功能將有助於產出更高品質的翻譯輸出。

Lionbridge Smart MT 解決方案的運作方式為何?

Smart MT 能透過連線程式搭配許多第三方 MT 系統使用。您可以將其視為一個具備以下功能的「MT 工具組」:

  • 與外部一流的 MT 供應商連線,例如 Microsoft、Google、Amazon、DeepL 和 Yandex。
  • 管理術語 — 可隨時加入與更新詞彙表或「請勿翻譯」(DNT) 詞彙,維護術語並確保輸出內使用的詞彙正確無誤。
  • 套用語言規則,讓使用者能夠修改來源文字或所得的 MT 輸出,以便解決已知問題並改善 MT 品質。

Lionbridge 也提供其他自動化功能,可以辨識客戶詞彙表中不一致的術語,以及這些術語在訓練語料庫及 MT 輸出中的使用情況。這些自動化功能有助我們在訓練語料庫及之後的 MT 輸出中,找出有哪些與核准之術語不相符的使用情況並加以修正。

如果我們發現 MT 輸出中並未使用所需的術語,就會建議客戶使用詞彙表,以及含有產品名稱與特定領域或品牌重要術語的 DNT。

關於詞彙表的建立與使用,還有哪些其他訣竅?

為了確保能獲得所需的機器翻譯成果,建議您根據以下指引建立詞彙表

  • 只將普遍適用於所有情況的來源詞彙加入您的詞彙表,通常包括專門術語、客戶核准的字詞以及技術詞彙。
  • 如果一個來源詞彙有多種翻譯存在,在詞彙表中請僅使用一行翻譯。
  • 盡量使用名詞片語。這種作法最適合應用在複合詞組、產業專門詞彙或客戶專屬的產品名稱。
  • 避免使用一般或常見的詞彙,因為單一個句子中若有多個術語項目存在,可能會影響到翻譯品質。

與我們聯絡

若想深入了解 Lionbridge 如何能協助您管理術語並發揮 MT 的最大效益,歡迎立即與我們聯絡

linkedin sharing button

Yolanda Martin 與 Janette Mandell
作者
Yolanda Martin 與 Janette Mandell
  • #technology
  • #blog_posts
  • #translation_localization