ライオンブリッジのエキスパートからのコメント: 自動翻訳分析

ライオンブリッジのテクノロジーに精通した専門家が機械翻訳と生成 AI のパラダイムを精査し、最新の自動翻訳のトレンドをお伝えします。

お問い合わせ

生成 AI がもたらす破壊的な変化の中でも機械翻訳テクノロジーの妥当性は変わらない

続々と変化する状況: 自動翻訳の進展を理解する

しばらく前から当社は、機械翻訳 (MT) パラダイムでは破壊的変革に向けた条件が整ってきていると申し上げてきました。エキスパートからのコメントをお読みになれば、理由がおわかりになるはずです。

ここでは、以下のようなさまざまなトピックについて、当社の自動翻訳の専門家による見解をご紹介します。

特定の時点での MT エンジンと生成 AI モデルの翻訳パフォーマンスと、大きな文脈の中で見たその結果の意味
自動翻訳ツールの限界
機械翻訳の効果を高める方法

MT と生成 AI についての理解が進むと、自社のニーズに合ったツールを選んで導入できるようになります。それぞれのパラダイムが提供する強みを活かして、翻訳効率の向上、コンテンツ出力の増加、コスト削減を達成しましょう。

ライオンブリッジのエキスパートからの注目のコメント

GPT-4 の特筆すべき特性、2023年10月

生成 AI (GenAI)/大規模言語モデル (LLM) の普及と将来性を踏まえ、当社はライオンブリッジ機械翻訳 (MT) 品質トラッカーレポートを強化しました。今後、レポートにはニューラル MT (NMT) エンジンのパフォーマンスはもちろん、GPT-3.5 と Davinci の結果に加え、GPT-4 による翻訳結果も含まれるようになります。

調査結果 1 — GPT-4 で一部のテキストが翻訳されない。

当社の MT テストセットにおいて、GPT-4 で特定の文章が翻訳されない現象が見られました。

調査の結果、特定の文脈において性的な意味合いを持つ用語が、この問題を引き起こしていることがわかりました。誤解のないように言うと、当社が用意したテストセットの文章は標準的でまったく問題のない内容でした。それにもかかわらず、GPT-4 の性的コンテンツフィルターがその特定の用語に反応し、AI によってその文章の訳文が検閲されて、結果として訳文が出力されなかったようです。この結果が驚きであったのには、次の 2 つの理由があります。

この用語が一般的な使用法で個別に使われている場合、問題は発生していない。

その特定の文章の文脈に問題のある解釈はない。

この観測の結果、GPT-4 のフィルター処理メカニズムの一部が、曖昧な用語も含む、シンプルな禁止用語のリストに基づいて構築されていることが原因である可能性が高いという結論に至りました。これは過度に反応し、プロフェッショナルな翻訳において重大な問題である誤検出を引き起こしやすいため、問題のあるアプローチと言えます。

ニューラル MT エンジンといったこれまでの機械翻訳テクノロジーでは、このようなコンテンツフィルター処理の問題は見られなかったため、これは LLM テクノロジーの制約だと結論付けることができます。

この制約は、現実世界のさまざまな場面で影響を及ぼすでしょう。たとえば、婦人科や性教育に関連する医学的コンテンツを翻訳する必要がある場合を考えてみましょう。 LLM で一部のテキストが翻訳されない状況にあわてることになるかもしれません。

興味深いことに、この問題は文章を中国語に翻訳する場合のみに発生し、他の言語への翻訳時には発生しませんでした。この結果は、GPT-4 の出力側にフィルターが適用されていることを示しています。解決策として、翻訳タスクのコンテンツフィルターを無効にすることが挙げられます。

調査結果 2 — GPT-4 の出力結果にばらつきが見られる。

5 週間にわたって追跡を行った結果、LLM 機械翻訳、特に GPT-4 の出力結果に大きなばらつきが見られました。

生成 AI においてもこの結果は想定されていましたが、ばらつきが予想よりも大きく、「温度」や「最上位確率」(Top_p) のパラメータ設定を使って創造性の度合いを下げ、出力の決定性を高めた場合でも見られました。 GPT の実行ごとに異なる翻訳出力が生成され、これは連続して翻訳を実行した場合でも同様でした。

どちらの訳文も、異なってはいても許容範囲内である場合はあるものの、これまでのニューラル MT パラダイムとは異なる、制御が必要な要素であることには変わりありません。

NMT から LLM MT への移行というこの潜在的なパラダイムシフトでは、テクノロジーの変化だけでなく、考え方の変化も必要になると直感しています。同じ入力と同じパラメータを使用した場合でも、決定性の低い出力を容認する心構えをし、現在の自動化で見られるよりも大きなばらつきが見られることを想定しておく必要があるかもしれません。

ある程度の不確定要素は容認する必要はありそうですが、何らかのメカニズムやベストプラクティスを活用して、そのばらつきをいくらか制御できるようにすることも可能だと考えられます。

最後に、図に示しているように、GPT-4 の編集距離の評価の低下は、品質の低下を示しているわけではありません。単に GPT 出力のばらつきが反映された結果です。来月は評価が上がっている可能性もあります。開発の余地やさらなるインサイトについて、ぜひご期待ください。

—ラファモラル、ライオンブリッジ、イノベーション担当バイスプレジデント

エキスパートからのコメント、トピックインデックス

これまでにエキスパートからのコメントで取り上げたトピックを以下のエグゼクティブサマリーでご覧ください。

2023 年 3 月 — 大規模言語モデル (LLM) がニューラル機械翻訳 (MT) エンジンをしのぐ性能に到達したことによる影響

2023 年 2 月 — 機械翻訳 (MT) の機能強化: MT のカスタマイズと MT のトレーニング

2023 年 1 月 — ChatGPT と主要 MT エンジンの翻訳品質の比較

2022 年 11 月 — マイクロソフトの MT の改善

2022 年 10 月 — MT と言語のフォーマルさの度合い

2022 年 9 月 — MT の品質向上のための用語管理

2022 年 8 月 — MT における重大なエラーの克服

2022 年 7 月 — MT の言語ランキング

2022 年 6 月 — MT の品質の正確な分析

2022 年 5 月 — 5 月の Amazon と Yandex のパフォーマンス

2022 年 4 月 — 4 月の Yandex のパフォーマンス

2022 年 3 月 — カスタム機械翻訳の比較評価

2022 年 2 月 — ニューラル機械翻訳 (NMT) の未来

2022 年 1 月 — MT エンジンの 1 月のパフォーマンス

2021 年 12 月 — ライオンブリッジ、機械翻訳品質競合調査の調査対象として Yandex MT を追加

2021 年 11 月 — Bing Translator のパフォーマンスが改善

2021 年 10 月 — Amazon の MT エンジンが進化

2021 年 9 月 — Amazon が MT の品質を改善

2021 年 8 月 — 主要なテクノロジー企業が MT エンジンの開発に参入

ライオンブリッジ機械翻訳トラッカー

ライオンブリッジ機械翻訳トラッカーでは、業界の MT エンジンを長期にわたって評価してきました。

トラッカーでは、5 つの主要なニューラル MT エンジンと複数の生成 AI モデルの総合的な性能を測定します。また、翻訳品質を言語ペアと分野に基づいて評価します。生成 AI は、いくつかの例外はあるものの、主要なニューラル MT エンジンの性能をしのぐには至っていませんが、これらのモデルが翻訳用に特化してトレーニングされたものではないことを考慮すれば、十分優れた結果を生成していると言えます。

結論として、生成 AI/LLM の導入に大きな関心が集まっている中でも、機械翻訳は、引き続き自動翻訳に役立つツールであることを証明してみせています。

翻訳結果は絶えず変化するので、トラッカーでは引き続き変動を把握していきます。

トラッカーに移動

ライオンブリッジのエキスパートからのコメント

自動翻訳の専門家による見解をご覧ください。

2023 年 3 月

生成系人工知能 (AI) が重要な成果を達成しています。当社が実施した比較評価で、生成 AI がニューラル機械翻訳 (MT) エンジンをしのぐ性能を発揮しました。特に、大規模言語モデル (LLM) GPT-4 は、英語から中国語への言語ペアについて Yandex よりもわずかに優れた翻訳品質を示しています (図 1 参照)。

ニューラル MT の出現以来、別の種類の MT 手法が初めてニューラル MT エンジンをしのぐ性能を発揮したという点において、生成 AI のこのような進歩は特筆に値します。さらに、MT 以外の手法 (機械翻訳向けに特化したものではない、多目的の自動言語処理サービス) でも、ニューラル MT エンジンよりも優れた品質を達成しています。

このような生成 AI の進歩が注目に値するのはなぜでしょうか。 MT プロバイダーには、テクノロジーの進化の最前線に立ち、そうした進化が現在の MT サービスに与える影響を検討して競争力を維持することが求められます。また MT サービスを購入する側は、常にこうした最新のテクノロジーを把握しつつ、MT への健全な投資を行わなければなりません。こうしたサービスには、純粋なニューラル MT サービスのみでなく、LLM ベースのテクノロジーも含まれます。

生成 AI はまだ開発初期の段階にあることも考慮する必要があります。一部の重要な分野においては、まだ求められる基準を満たしていません。生成 AI には、複数回の実行で出力にばらつきが生じる、アプリケーションプログラミングインターフェース (API) に不安定さがある、ニューラル MT エンジンより高い頻度でエラーが発生するといった問題が見られます。テクノロジーを成熟させるにはこれらの問題を解決する必要があり、当社ではすでに、驚異的な速さで改善が進められていることを確認しています。

LLM が驚くべき速さで改善されている状況を踏まえれば、LLM が機械翻訳の次世代を担うという考えには説得力があります。今後は、パラダイムシフトの発生に伴ってニューラル MT プロバイダーが LLM の一部機能をニューラル MT アーキテクチャに統合し、混在期間に入ると予測されます。

さらに 2 つの言語ペアに関するニューラル MT と LLM の翻訳品質の比較と、ニューラル機械翻訳時代が終焉を迎えつつある可能性についての詳細な考察については、当社のブログ記事をご覧ください。

—ラファモラル、ライオンブリッジ、イノベーション担当バイスプレジデント

	MT のカスタマイズ
定義としくみ	機械翻訳が生成する翻訳の精度を高めるために、既にある機械翻訳エンジンを、用語集や翻訳しない語句 (DNT) リストと併せて採用すること
達成される内容	MT が提案する翻訳をより正確にし、ポストエディットの必要性を低減する
具体的な利点	適切なブランド名や用語を使用して地域別のバリエーションを用意できるようになる
使用上のリスク	適切に実行されないと MT が提案する翻訳の質が低く、全体的な品質を損なう可能性がある
使用するタイミング	技術的なコンテンツや細部を重視するコンテンツ、および次のことが当てはまるコンテンツに理想的な選択肢用語を正確に翻訳する必要がある地域別のバリエーションを用意する必要があるものの、MT のトレーニングを実施するには十分なデータがない
成功要因	インプットとアウトプットの標準化ルール、用語集、および DNT を適切に管理できる、経験ある MT エキスパート
コスト上の検討事項	MT エンジンに設定するプロファイルをアップデートするための 1 回限りの費用と、用語集を維持・管理するための費用が継続的にかかる。潜在的な利点を考慮すると比較的安価。また、一般的には MT のトレーニングにかかる費用よりも安価で済む

	MT のトレーニング
定義としくみ	機械翻訳が生成する翻訳の精度を高めるために、コーパスの豊富なバイリンガル言語データを活用して MT エンジンを構築およびトレーニングすること
達成される内容	MT が提案する翻訳をより正確にし、ポストエディットの必要性を低減する
具体的な利点	企業独自のブランドボイス、トーン、スタイルを維持しながら、地域別のバリエーションを用意できるようになる
使用上のリスク	エンジンをトレーニングするために必要な質の高いデータが十分にない場合、MT のトレーニングの成果を得ることができない可能性がある。経験のない作成者がコンテンツで用語を多用しすぎると、MT によって品質レベルの低い翻訳が提示され、全体の品質を損ねる可能性がある。
使用するタイミング	専門性の高いコンテンツ、マーケティングやクリエイティブなコンテンツ、および次のことが当てはまるコンテンツに理想的な選択肢独自のブランドボイスやトーン、スタイルを維持する必要がある地域別のバリエーションを用意する必要があり、MT のトレーニングを実施するための十分なデータがある
成功要因	エンジンを十分にトレーニングするために必要な少なくとも 15,000 のユニークなセグメント
コスト上の検討事項	初回のトレーニングにかかる費用に加え、MT のパフォーマンスをモニタリングする中で改善の余地があると見受けられる場合に追加のトレーニング費用がかかる可能性がある。潜在的な利点を考慮した場合に、特定のケースで投資の価値がある

	MT のカスタマイズ	MT のトレーニング
定義としくみ	機械翻訳が生成する翻訳の精度を高めるために、既にある機械翻訳エンジンを、用語集や翻訳しない語句 (DNT) リストと併せて採用すること	機械翻訳が生成する翻訳の精度を高めるために、コーパスの豊富なバイリンガル言語データを活用して MT エンジンを構築およびトレーニングすること
達成される内容	MT が提案する翻訳をより正確にし、ポストエディットの必要性を低減する	MT が提案する翻訳をより正確にし、ポストエディットの必要性を低減する
具体的な利点	適切なブランド名や用語を使用して地域別のバリエーションを用意できるようになる	企業独自のブランドボイス、トーン、スタイルを維持しながら、地域別のバリエーションを用意できるようになる
使用上のリスク	適切に実行されないと MT が提案する翻訳の質が低く、全体的な品質を損なう可能性がある	エンジンをトレーニングするために必要な質の高いデータが十分にない場合、MT のトレーニングの成果を得ることができない可能性がある。経験のない作成者がコンテンツで用語を多用しすぎると、MT によって品質レベルの低い翻訳が提示され、全体の品質を損ねる可能性がある。
使用するタイミング	技術的なコンテンツや細部を重視するコンテンツ、および次のことが当てはまるコンテンツに理想的な選択肢用語を正確に翻訳する必要がある地域別のバリエーションを用意する必要があるものの、MT のトレーニングを実施するには十分なデータがない	専門性の高いコンテンツ、マーケティングやクリエイティブなコンテンツ、および次のことが当てはまるコンテンツに理想的な選択肢独自のブランドボイスやトーン、スタイルを維持する必要がある地域別のバリエーションを用意する必要があり、MT のトレーニングを実施するための十分なデータがある
成功要因	インプットとアウトプットの標準化ルール、用語集、および DNT を適切に管理できる、経験ある MT エキスパート	エンジンを十分にトレーニングするために必要な少なくとも 15,000 のユニークなセグメント
コスト上の検討事項	MT エンジンに設定するプロファイルをアップデートするための 1 回限りの費用と、用語集を維持・管理するための費用が継続的にかかる。潜在的な利点を考慮すると比較的安価。また、一般的には MT のトレーニングにかかる費用よりも安価で済む	初回のトレーニングにかかる費用に加え、MT のパフォーマンスをモニタリングする中で改善の余地があると見受けられる場合に追加のトレーニング費用がかかる可能性がある。潜在的な利点を考慮した場合に、特定のケースで投資の価値がある

サービス

業界

リソース

会社概要

ライオンブリッジのエキスパートからのコメント: 自動翻訳分析

生成 AI がもたらす破壊的な変化の中でも機械翻訳テクノロジーの妥当性は変わらない

続々と変化する状況: 自動翻訳の進展を理解する

ライオンブリッジのエキスパートからの注目のコメント

GPT-4 の特筆すべき特性、2023年10月

最新の調査結果や、 GPT-4 の特筆すべき特性をいくつかご紹介します。

調査結果 1 — GPT-4 で一部のテキストが翻訳されない。

調査結果 2 — GPT-4 の出力結果にばらつきが見られる。

エキスパートからのコメント、トピックインデックス

ライオンブリッジ機械翻訳トラッカー

ライオンブリッジのエキスパートからのコメント

2023 年 3 月

2023 年 2 月

機械翻訳のカスタマイズと機械翻訳のトレーニングの比較

2023 年 1 月

2022 年 11 月

2022 年 10 月

2022 年 9 月

2022 年 8 月

2022 年 7 月

2022 年 6 月

2022 年 5 月

2022 年 4 月

2022 年 3 月

2022 年 2 月

2022 年 1 月

2021 年 12 月

2021 年 11 月

2021 年 10 月

2021 年 9 月

2021 年 8 月

ライオンブリッジの機械翻訳専門家をご紹介

ラファ モラル

ヨランダ マーティン

トーマス マッカーシー

お問い合わせフォームにて当社までご相談ください。

お問い合わせ

LANGUAGE CLOUD™

業界

ラファモラル

ヨランダマーティン

トーマスマッカーシー