言語:
言語:
コンテンツ サービス
- 技術文書の作成
- トレーニングおよび eラーニング
- 財務報告書
- デジタル マーケティング
- SEO およびコンテンツの最適化
翻訳サービス
- 動画ローカリゼーション
- ソフトウェア ローカリゼーション
- Web サイト ローカリゼーション
- 規制対象企業向けの翻訳
- 通訳
- ライブ イベント
テスティング サービス
- 機能 QA およびテスト
- 互換性テスト
- 相互運用性テスト
- パフォーマンス テスト
- アクセシビリティ テスト
- UX/CX テスティング
ソリューション
- 翻訳サービス モデル
- 機械翻訳
- Smart Onboarding™
- Aurora AI Studio™
ライオンブリッジのナレッジ ハブ
- 良好な患者アウトカム
- ローカリゼーションの未来
- 最先端免疫学事情
- 新型コロナウイルス (COVID-19) 言語リソース センター
- ディスラプション シリーズ
- 患者エンゲージメント
- ライオンブリッジのインサイト
言語を選択する:
生成 AI (GenAI) と大規模言語モデル (LLM) テクノロジーとはそもそも何なのでしょうか。ChatGPT などの生成 AI と LLM によって、翻訳とローカリゼーションにどのような変化がもたらされるのでしょうか。そして、LLM を利用してグローバル コンテンツ ワークフローを改善するにはどうすればよいのでしょうか。
生成 AI と LLM に関するウェビナー シリーズの第 1 回では、ライオンブリッジの制作および開発チームの責任者であるヴィンセント ヘンダーソンがこれらの疑問にお答えします。
ウェビナーを見逃された方は、オン デマンドでご覧ください。
視聴する時間がない方は、ヴィンセントがウェビナーで説明したトピックの要約をご一読ください。
生成 AI と LLM は、人間がどのように文章を書くかをインターネット上のコーパスから学習した人工知能 (AI) エンジンです。何かを入力すると、この AI エンジンはトレーニングで得た知識から、次に出現する可能性が最も高い語句を補完して文章を完成します。
新しい AI に基づくこれらのテクノロジーは、膨大なデータから得た知識を使用して出力内容を決定します。
次の出力として最も妥当と思われるものを判断する能力など大したことではないと思われるかもしれませんが、これは非常に高度なタスクです。LLM は、入力された語句を全体的に捉え、それが言語の全体像の中でどのように位置付けられるかを判別し、出力を生成します。また、プロンプトやトレーニング コーパスの中で最も重要なことと注意すべきことを特定します。
こうした結果、LLM は人間が書いたかのような文を生成する並外れた能力を獲得しています。このテクノロジーは、あたかも人間の意図を理解し、人間のように考え、振る舞っているように思えます。
ChatGPT のような LLM は、学習に基づいて次のような処理を実行できます。
ChatGPT のような LLM が翻訳とローカリゼーションにおいて有利な点を理解するために、まず、ニューラル機械翻訳 (NMT) を使用した場合の自動翻訳に関連する課題をいくつか見ていきましょう。
企業はこれまで機械翻訳 (MT) エンジンに依存してきました。それらの多くは、一連の単語を解釈して、それに対応する翻訳を決定するように最適化された専門性の高い LLM MT エンジンです。生成する結果が最適とまではいかない汎用型 MT エンジンを使用する企業は、膨大な関連データを使ってエンジンのトレーニングを微調整すれば、結果を改善することは可能でした。
しかし、これには大きなコストがかかります。また、MT エンジンを使用する企業は、新製品のローンチやマーケティング活動といった新たな取り組みを開始するたびに、エンジンの再トレーニングに労力と費用をかける価値があるかどうかを常に判断しなければなりません。
一方、LLM は、企業が何を期待しているかをわずかなサンプルから学習します。少数のサンプルで済むのは、これらのエンジンにすでに多くの知識が蓄積されているからです。また、学習したことを新しいタスクに適用できます。これにより、大量のデータを必要とするタスクごとのモデル トレーニングを行わなくても、コンテキストを踏まえたより軽量なプロンプトだけで、求める翻訳結果を得ることができます。
とはいえ、この要約の執筆時点で、これらの機能を備えた LLM は高い需要圧力にさらされており、業界規模のローカリゼーションで必要となる膨大なコンテンツにはまだ対応できていません。この状況は近々新たな展開を見せると思われますが、それがいつになるかは定かではありません。
LLM の翻訳パフォーマンスは MT エンジンと比較するとどの程度のものなのでしょうか。当社では、英語から中国語、英語からスペイン語、英語からドイツ語への翻訳で、主要 MT エンジンと GPT モデルが生成した翻訳品質を比較しました。
現時点で、全般的には GPT では最も評価の高い MT エンジンほどのパフォーマンスは出せていません。しかし、LLM はもう一歩のところまで来ています。図 1 で示されているとおり、GPT-4 は、英語から中国語への言語ペアについて Yandex MT エンジンをわずかにしのいでいます。
さまざまな分野や言語に基づくエンジンの比較結果については、ライオンブリッジ機械翻訳トラッカーをご覧ください。こちらでは、自動翻訳の総合的な性能を長期にわたって定期的に評価しています。
GPT のような LLM は、具体的な指示がなくても、主要 MT エンジンよりも日常的な表現を多く使って翻訳します。この点は、プロの翻訳者の手法とは食い違うことがあり、ミスと見なされる可能性があります。また、GPT は新しい語句や表現を作り出すことがありますが、これは翻訳者であれば避けることです。
LLM に特定の用語を使用させるのは簡単で、そのように指示するだけで済みます。一方、MT エンジンでは、用語の取り込みにはより手間がかかります。結果または原文に用語を取り入れるには、MT エンジンのトレーニングや MT エンジンの上部構造の構築といった作業が必要になるからです。また、ほとんどの場合は、この際に語形変化やコンコーダンスで問題が発生します。
GPT は言語認識に優れているため、コンコーダンスの一致に関わるエラーなどの言語的なエラーはほとんど発生しません。また、指示を与えることで自己修正することも可能です。
LLM は多用途なので、翻訳対象の「ターゲット言語」におけるテキストの改善だけではなく、原文テキストの改善にも使用できます。また、その分析では、頻度、量、長さといった定量的な観点にとどまらず、定性的な評価や自動的な改善までも可能です。タスクを特定の方法で行うように LLM に指示することで、期待どおりの結果を生成させることもできます。
ChatGPT は以下の用途に使用できます。
LLM を使用してコンテンツを読みやすくすれば、御社の意図を対象のオーディエンスに理解してもらいやすくなります。また、原文を改善してワード数を減らせば、ローカリゼーション コストを削減できます。
プロの翻訳者に依頼するように、LLM に翻訳のポストエディットを任せることもできます。しかし、そもそも LLM にポストエディットがこなせるのでしょうか。ある分析では、1 つの文が最終的な訳文になるまでの労力、つまり編集距離が 48% から 32% へと大幅に減少することが示されました。さらに、余分なスペースなどのエラーの検出、適切な単語や語句の提示、リライトによるターゲット言語テキストの改善も可能です。
生成 AI によって多言語コンテンツのワークフローが大きく変わることは明白であり、当社ではこうした変化に対応した各種サービスを提供しています。
LLM の多言語コンテンツ生成能力が、翻訳メモリ (TM) の導入以来、ローカリゼーション業界にもたらされた最大のイノベーションであることは間違いないでしょう。
ここで、LLM がどのようにして多言語コンテンツをゼロから生成するかを説明しましょう。まず、LLM に情報を与えます。次に、それから派生コンテンツを生成し、そのコンテンツをそのまま多言語化するように指示します。
LLM を使用すれば、既存のデータをベースに製品説明やツイート、その他の資料を生成できます。これによって、LLM が現実の物事について指示されたときに生成しがちなハルシネーションのリスクを回避できます。
これまでは、グローバル コンテンツ ワークフローは国内向けとグローバル向けのコンテンツ制作という 2 つの別々のワークフローをベースにしてきました。最初にソース言語 (原文の言語) のライターを採用して派生コンテンツを制作し、その後ローカリゼーション ワークフローを開始するという流れは、LLM を使用する場合には当てはまりません。代わりに、必要なすべての言語で派生コンテンツを制作し、国内言語を含む各言語のポストエディターによりポストエディット作業を行います。
当社では、当社が管理する広範なグローバル翻訳者ネットワークを活用することで、多言語で生成されたコンテンツに対する多言語ポストエディット サービスを提供しています。
LLM を使用した多言語コンテンツの生成には「プロンプト エンジニアリング」が不可欠です。これは時間のかかる作業で、試行錯誤を伴うこともしばしばです。企業による適切なプロンプト作成の支援はローカリゼーション業界における新たなサービス カテゴリーとなっており、当社ではこれまで蓄積してきた知識とノウハウに基づいて、こうした新たなニーズも支援しています。
当社ではバックエンド開発で AI の活用を簡素化し、お客様が多言語生成 AI の取り組みでサンプルやプロンプトとして使用するコンテンツ タイプを集約するサポートを提供しています。
GPT は、翻訳メモリ (TM) やスタイルのルールといった言語資産に調整を加えることができます。
ライオンブリッジでは GPT-4 を活用して、フランス語翻訳メモリ (TM) 全体を口語的な表現に変更する試みを実施しました。この際、トーンとスタイルをお客様の仕様に順応させましたが、従来よりも低コストで実現できました。
このカテゴリーに関わるのは LLM を使用したポストエディットの簡素化、迅速化、低コスト化であり、それによって最終的に翻訳ワークフロー全体の効果を高めるだけでなく、費用対効果にも優れたものにすることです。
ローカリゼーション ワークフローの改善は、多くの企業のお客様に、当社が掲げる「あらゆるコンテンツをローカライズする」というコンセプトを実感していただくことにつながります。
LLM はローカリゼーションに確実に大きな変化をもたらします。現在採用されているワークフローは時とともに大きく変わるでしょう。
企業は、国内向けとグローバル向けに分かれたワークフローを別々に運用するのではなく、コンテンツの目標を設定して適切なプランニングを行うだけで、多言語のコンテンツをそれぞれ直接生成できるようになります。
新しいテクノロジーの登場で仕事が奪われるのではと不安になるのはよくある話ですが、当社では LLM によって当社のような言語サービス プロバイダー (LSP) や翻訳者のニーズがなくなるとは考えていません。
たとえば、企業が LLM を使用して多言語コンテンツを生成したとしても、機械による出力に対して当該分野の専門家がレビューを実施する必要性は残ります。これは機械翻訳のポストエディットですが、今後は別の名前で呼ぶようになるかもしれません。
「LLM が提起する課題に、言語業界全体で対処する必要があります。これは刺激的なことです。LLM テクノロジーで対応できる使用事例は爆発的に増加しつつあります」
— ライオンブリッジ製品言語サービス責任者、ヴィンセント ヘンダーソン