ウェビナー
臨床試験における包括性の向上: COA の作成と翻訳
ライオンブリッジの TRUST フレームワーク
AI 活用のための確かな基盤の構築
生成 AI
- AI 翻訳サービス
- Content Remix
AI トレーニング
- Aurora AI Studio™
機械翻訳
- MT トラッカー
Smart Onboarding
翻訳サービス モデル
コンテンツ サービス
- テクニカル ライティング
- トレーニング/eラーニング
- 財務報告書
- デジタル マーケティング
- SEO/コンテンツ最適化
翻訳サービス
- 動画ローカリゼーション
- ソフトウェア ローカリゼーション
- Web サイト ローカリゼーション
- 規制対象企業向け翻訳
- 通訳
- 迅速な通訳サービス
- ライブ イベント
- 言語品質サービス
テスティング サービス
- 機能 QA/テスト
- 互換性テスト
- 相互運用性テスト
- パフォーマンス テスト
- アクセシビリティ テスト
- UX/CX テスティング
インサイト
- ブログ記事
- ケース スタディ
- ホワイトペーパー
- ソリューション概要
- インフォグラフィック
- eBook
- 動画
ウェビナー
ライオンブリッジのナレッジ ハブ
- 良好な患者アウトカム
- 最新の臨床試験ソリューション
- 患者エンゲージメント
言語を選択:
しばらく前から当社は、機械翻訳 (MT) パラダイムでは破壊的変革に向けた条件が整ってきていると申し上げてきました。エキスパートからのコメントをお読みになれば、理由がおわかりになるはずです。
ここでは、以下のようなさまざまなトピックについて、当社の自動翻訳の専門家による見解をご紹介します。
MT と生成 AI についての理解が進むと、自社のニーズに合ったツールを選んで導入できるようになります。それぞれのパラダイムが提供する強みを活かして、翻訳効率の向上、コンテンツ出力の増加、コスト削減を達成しましょう。
生成 AI (GenAI)/大規模言語モデル (LLM) の普及と将来性を踏まえ、当社はライオンブリッジ機械翻訳 (MT) 品質トラッカー レポートを強化しました。 今後、レポートにはニューラル MT (NMT) エンジンのパフォーマンスはもちろん、GPT-3.5 と Davinci の結果に加え、GPT-4 による翻訳結果も含まれるようになります。
GPT-4 に関連する複数の問題が見られており、低パフォーマンス、さまざまな理由により翻訳を出力できない現象、実行するたびに訳文が入ったり、入らなかったりする一貫性のない動作などが挙げられます。
当社の MT テスト セットにおいて、GPT-4 で特定の文章が翻訳されない現象が見られました。
調査の結果、特定の文脈において性的な意味合いを持つ用語が、この問題を引き起こしていることがわかりました。 誤解のないように言うと、当社が用意したテスト セットの文章は標準的でまったく問題のない内容でした。 それにもかかわらず、GPT-4 の性的コンテンツ フィルターがその特定の用語に反応し、AI によってその文章の訳文が検閲されて、結果として訳文が出力されなかったようです。 この結果が驚きであったのには、次の 2 つの理由があります。
この用語が一般的な使用法で個別に使われている場合、問題は発生していない。
その特定の文章の文脈に問題のある解釈はない。
この観測の結果、GPT-4 のフィルター処理メカニズムの一部が、曖昧な用語も含む、シンプルな禁止用語のリストに基づいて構築されていることが原因である可能性が高いという結論に至りました。 これは過度に反応し、プロフェッショナルな翻訳において重大な問題である誤検出を引き起こしやすいため、問題のあるアプローチと言えます。
ニューラル MT エンジンといったこれまでの機械翻訳テクノロジーでは、このようなコンテンツ フィルター処理の問題は見られなかったため、これは LLM テクノロジーの制約だと結論付けることができます。
この制約は、現実世界のさまざまな場面で影響を及ぼすでしょう。 たとえば、婦人科や性教育に関連する医学的コンテンツを翻訳する必要がある場合を考えてみましょう。 LLM で一部のテキストが翻訳されない状況にあわてることになるかもしれません。
興味深いことに、この問題は文章を中国語に翻訳する場合のみに発生し、他の言語への翻訳時には発生しませんでした。 この結果は、GPT-4 の出力側にフィルターが適用されていることを示しています。 解決策として、翻訳タスクのコンテンツ フィルターを無効にすることが挙げられます。
5 週間にわたって追跡を行った結果、LLM 機械翻訳、特に GPT-4 の出力結果に大きなばらつきが見られました。
生成 AI においてもこの結果は想定されていましたが、ばらつきが予想よりも大きく、「温度」や「最上位確率」(Top_p) のパラメータ設定を使って創造性の度合いを下げ、出力の決定性を高めた場合でも見られました。 GPT の実行ごとに異なる翻訳出力が生成され、これは連続して翻訳を実行した場合でも同様でした。
どちらの訳文も、異なってはいても許容範囲内である場合はあるものの、 これまでのニューラル MT パラダイムとは異なる、制御が必要な要素であることには変わりありません。
NMT から LLM MT への移行というこの潜在的なパラダイム シフトでは、テクノロジーの変化だけでなく、考え方の変化も必要になると直感しています。 同じ入力と同じパラメータを使用した場合でも、決定性の低い出力を容認する心構えをし、現在の自動化で見られるよりも大きなばらつきが見られることを想定しておく必要があるかもしれません。
ある程度の不確定要素は容認する必要はありそうですが、何らかのメカニズムやベスト プラクティスを活用して、そのばらつきをいくらか制御できるようにすることも可能だと考えられます。
最後に、図に示しているように、GPT-4 の編集距離の評価の低下は、品質の低下を示しているわけではありません。 単に GPT 出力のばらつきが反映された結果です。 来月は評価が上がっている可能性もあります。 開発の余地やさらなるインサイトについて、ぜひご期待ください。
—ラファ モラル、ライオンブリッジ、イノベーション担当バイス プレジデント
これまでにエキスパートからのコメントで取り上げたトピックを以下のエグゼクティブ サマリーでご覧ください。
2023 年 3 月 — 大規模言語モデル (LLM) がニューラル機械翻訳 (MT) エンジンをしのぐ性能に到達したことによる 影響
2023 年 2 月 — 機械翻訳 (MT) の機能強化: MT のカスタマイズと MT のトレーニング
2023 年 1 月 — ChatGPT と主要 MT エンジンの翻訳品質の比較
2022 年 11 月 — マイクロソフトの MT の改善
2022 年 10 月 — MT と言語のフォーマルさの度合い
2022 年 9 月 — MT の品質向上のための用語管理
2022 年 8 月 — MT における重大なエラーの克服
2022 年 7 月 — MT の言語ランキング
2022 年 6 月 — MT の品質の正確な分析
2022 年 5 月 — 5 月の Amazon と Yandex のパフォーマンス
2022 年 4 月 — 4 月の Yandex のパフォーマンス
2022 年 3 月 — カスタム機械翻訳の比較評価
2022 年 2 月 — ニューラル機械翻訳 (NMT) の未来
2022 年 1 月 — MT エンジンの 1 月のパフォーマンス
2021 年 12 月 — ライオンブリッジ、機械翻訳品質競合調査の調査対象として Yandex MT を追加
2021 年 11 月 — Bing Translator のパフォーマンスが改善
2021 年 10 月 — Amazon の MT エンジンが進化
2021 年 9 月 — Amazon が MT の品質を改善
2021 年 8 月 — 主要なテクノロジー企業が MT エンジンの開発に参入
自動翻訳の専門家による見解をご覧ください。
生成系人工知能 (AI) が重要な成果を達成しています。 当社が実施した比較評価で、生成 AI がニューラル機械翻訳 (MT) エンジンをしのぐ性能を発揮しました。 特に、大規模言語モデル (LLM) GPT-4 は、英語から中国語への言語ペアについて Yandex よりもわずかに優れた翻訳品質を示しています (図 1 参照)。
ニューラル MT の出現以来、別の種類の MT 手法が初めてニューラル MT エンジンをしのぐ性能を発揮したという点において、生成 AI のこのような進歩は特筆に値します。さらに、MT 以外の手法 (機械翻訳向けに特化したものではない、多目的の自動言語処理サービス) でも、ニューラル MT エンジンよりも優れた品質を達成しています。
このような生成 AI の進歩が注目に値するのはなぜでしょうか。 MT プロバイダーには、テクノロジーの進化の最前線に立ち、そうした進化が現在の MT サービスに与える影響を検討して競争力を維持することが求められます。 また MT サービスを購入する側は、常にこうした最新のテクノロジーを把握しつつ、MT への健全な投資を行わなければなりません。こうしたサービスには、純粋なニューラル MT サービスのみでなく、LLM ベースのテクノロジーも含まれます。
生成 AI はまだ開発初期の段階にあることも考慮する必要があります。 一部の重要な分野においては、まだ求められる基準を満たしていません。 生成 AI には、複数回の実行で出力にばらつきが生じる、アプリケーション プログラミング インターフェース (API) に不安定さがある、ニューラル MT エンジンより高い頻度でエラーが発生するといった問題が見られます。 テクノロジーを成熟させるにはこれらの問題を解決する必要があり、当社ではすでに、驚異的な速さで改善が進められていることを確認しています。
LLM が驚くべき速さで改善されている状況を踏まえれば、LLM が機械翻訳の次世代を担うという考えには説得力があります。 今後は、パラダイム シフトの発生に伴ってニューラル MT プロバイダーが LLM の一部機能をニューラル MT アーキテクチャに統合し、混在期間に入ると予測されます。
さらに 2 つの言語ペアに関するニューラル MT と LLM の翻訳品質の比較と、ニューラル機械翻訳時代が終焉を迎えつつある可能性についての詳細な考察については、当社のブログ記事をご覧ください。
—ラファ モラル、ライオンブリッジ、イノベーション担当バイス プレジデント
汎用型の機械翻訳 (MT) エンジンは、翻訳プロセスを自動化したい企業にとって十分な結果を提供することが多くあります。 ですが、質の低い訳を提案することもあります。コンテンツが技術的なものであったり、高度に専門的なものであったりする場合は特にです。
具体的な目的を達成するために機械翻訳 (MT) の品質を改善したいと考えている企業は、 MT のカスタマイズかトレーニング、あるいはその両方を実施する選択肢があります。 どちらの方法も、あるいは両方を組み合わせた場合も、自動化された翻訳プロセスにおいてより優れた結果を得られるようになります。
ただし、それぞれのアプローチは互いに異なるものであり、どちらを採用しても変わりがない、というものではありません。 表 1 は、MT のカスタマイズおよび MT のトレーニングに関する概要とそれぞれの方法を評価する際に検討すべき事項を示しています。
MT のカスタマイズ | |
---|---|
定義としくみ | 機械翻訳が生成する翻訳の精度を高めるために、既にある機械翻訳エンジンを、用語集や翻訳しない語句 (DNT) リストと併せて採用すること |
達成される内容 | MT が提案する翻訳をより正確にし、ポストエディットの必要性を低減する |
具体的な利点 | 適切なブランド名や用語を使用して地域別のバリエーションを用意できるようになる |
使用上のリスク | 適切に実行されないと MT が提案する翻訳の質が低く、全体的な品質を損なう可能性がある |
使用するタイミング | 技術的なコンテンツや細部を重視するコンテンツ、および次のことが当てはまるコンテンツに理想的な選択肢 *用語を正確に翻訳する必要がある * 地域別のバリエーションを用意する必要があるものの、MT のトレーニングを実施するには十分なデータがない |
成功要因 | インプットとアウトプットの標準化ルール、用語集、および DNT を適切に管理できる、経験ある MT エキスパート |
コスト上の検討事項 | MT エンジンに設定するプロファイルをアップデートするための 1 回限りの費用と、用語集を維持・管理するための費用が継続的にかかる。潜在的な利点を考慮すると比較的安価。また、一般的には MT のトレーニングにかかる費用よりも安価で済む |
表 1. MT のカスタマイズと MT のトレーニングの比較
MT のトレーニング | |
---|---|
定義としくみ | 機械翻訳が生成する翻訳の精度を高めるために、コーパスの豊富なバイリンガル言語データを活用して MT エンジンを構築およびトレーニングすること |
達成される内容 | MT が提案する翻訳をより正確にし、ポストエディットの必要性を低減する |
具体的な利点 | 企業独自のブランド ボイス、トーン、スタイルを維持しながら、地域別のバリエーションを用意できるようになる |
使用上のリスク | エンジンをトレーニングするために必要な質の高いデータが十分にない場合、MT のトレーニングの成果を得ることができない可能性がある。経験のない作成者がコンテンツで用語を多用しすぎると、MT によって品質レベルの低い翻訳が提示され、全体の品質を損ねる可能性がある。 |
使用するタイミング | 専門性の高いコンテンツ、マーケティングやクリエイティブなコンテンツ、および次のことが当てはまるコンテンツに理想的な選択肢 *独自のブランド ボイスやトーン、スタイルを維持する必要がある *地域別のバリエーションを用意する必要があり、MT のトレーニングを実施するための十分なデータがある |
成功要因 | エンジンを十分にトレーニングするために必要な少なくとも 15,000 のユニークなセグメント |
コスト上の検討事項 | 初回のトレーニングにかかる費用に加え、MT のパフォーマンスをモニタリングする中で改善の余地があると見受けられる場合に追加のトレーニング費用がかかる可能性がある。潜在的な利点を考慮した場合に、特定のケースで投資の価値がある |
表 1. MT のカスタマイズと MT のトレーニングの比較
MT のカスタマイズ | MT のトレーニング | |
---|---|---|
定義としくみ | 機械翻訳が生成する翻訳の精度を高めるために、既にある機械翻訳エンジンを、用語集や翻訳しない語句 (DNT) リストと併せて採用すること | 機械翻訳が生成する翻訳の精度を高めるために、コーパスの豊富なバイリンガル言語データを活用して MT エンジンを構築およびトレーニングすること |
達成される内容 | MT が提案する翻訳をより正確にし、ポストエディットの必要性を低減する | MT が提案する翻訳をより正確にし、ポストエディットの必要性を低減する |
具体的な利点 | 適切なブランド名や用語を使用して地域別のバリエーションを用意できるようになる | 企業独自のブランド ボイス、トーン、スタイルを維持しながら、地域別のバリエーションを用意できるようになる |
使用上のリスク | 適切に実行されないと MT が提案する翻訳の質が低く、全体的な品質を損なう可能性がある | エンジンをトレーニングするために必要な質の高いデータが十分にない場合、MT のトレーニングの成果を得ることができない可能性がある。経験のない作成者がコンテンツで用語を多用しすぎると、MT によって品質レベルの低い翻訳が提示され、全体の品質を損ねる可能性がある。 |
使用するタイミング | 技術的なコンテンツや細部を重視するコンテンツ、および次のことが当てはまるコンテンツに理想的な選択肢 *用語を正確に翻訳する必要がある * 地域別のバリエーションを用意する必要があるものの、MT のトレーニングを実施するには十分なデータがない |
専門性の高いコンテンツ、マーケティングやクリエイティブなコンテンツ、および次のことが当てはまるコンテンツに理想的な選択肢 *独自のブランド ボイスやトーン、スタイルを維持する必要がある *地域別のバリエーションを用意する必要があり、MT のトレーニングを実施するための十分なデータがある |
成功要因 | インプットとアウトプットの標準化ルール、用語集、および DNT を適切に管理できる、経験ある MT エキスパート | エンジンを十分にトレーニングするために必要な少なくとも 15,000 のユニークなセグメント |
コスト上の検討事項 | MT エンジンに設定するプロファイルをアップデートするための 1 回限りの費用と、用語集を維持・管理するための費用が継続的にかかる。潜在的な利点を考慮すると比較的安価。また、一般的には MT のトレーニングにかかる費用よりも安価で済む | 初回のトレーニングにかかる費用に加え、MT のパフォーマンスをモニタリングする中で改善の余地があると見受けられる場合に追加のトレーニング費用がかかる可能性がある。潜在的な利点を考慮した場合に、特定のケースで投資の価値がある |
表 1. MT のカスタマイズと MT のトレーニングの比較
機械翻訳のカスタマイズと機械翻訳のトレーニングの比較について詳しくは、当社のブログ記事をお読みください。
—トーマス マッカーシー、ライオンブリッジ MT ビジネス アナリスト
機械翻訳 (MT) において、大規模言語モデル (LLM) がニューラル機械翻訳 (NMT) に取って代わるパラダイム シフトが起こるのでしょうか。 これを確かめるために、OpenAI の LLM である GPT-3 ファミリーの最新バージョン ChatGPT と、MT 品質トラッキングで当社が利用している 5 つの主要 MT エンジンとで、翻訳パフォーマンスを比較しました。
予想どおり、特化型 NMT エンジンのほうが ChatGPT よりも翻訳は優れていました。 しかし、驚くべきことに、ChatGPT のパフォーマンスも立派なものでした。 図 1 に示すように、ChatGPT は特化型エンジンに匹敵する結果を残しました。
品質レベルは、英語からスペイン語に翻訳する言語ペアの複数の参照訳を使用して、逆編集距離に基づいて算出しました。 編集距離は、MT の出力に対して、翻訳者による翻訳品質と同等にするために人間が行わなければならない編集の量を算出するものです。 今回は、翻訳者による翻訳 1 種類のみではなく、10 種類、つまり複数の参照訳と MT のみの出力を比較しました。 逆編集距離は、結果の数値が大きいほど品質が優れていることを意味します。
図 1. 英語からスペイン語に翻訳する言語ペアの複数の参照訳を使用した逆編集距離に基づく、ChatGPT と主要機械翻訳エンジンによる自動翻訳品質の比較。
これらの結果は目を見張るものです。というのも、汎用モデルは自然言語処理 (NLP) タスクを実行するようトレーニングされており、特に翻訳実行のためのトレーニングはされていないからです。 ChatGPT のパフォーマンスは、2 ~ 3 年前の MT エンジンの品質レベルと同等です。
世間の関心とこの技術への IT 企業の大型投資を踏まえて LLM の進化を考えると、ChatGPT が MT エンジンを追い越すかどうか、または MT が新しい LLM のパラダイムを採用するようになるかどうかがわかるまでにそれほど時間はかからないかもしれません。 MT が LLM をベースとして使用する可能性はありますが、その時は機械翻訳向けにテクノロジーのチューニングが行われる可能性があります。 これは、機械と人間の会話によるコミュニケーションを可能にするといった特定のユース ケース向けに汎用モデルを向上させるべく、OpenAI や他の LLM 企業が行っていることと同様のことです。 特化することで、実行するタスクの精度が高まります。
これらの大規模言語「汎用」モデルの良い点の一つは、さまざまなことを実行でき、それらのタスクのほとんどで優れた品質を示せることです。 たとえば、DeepMind の GATO は別の汎用 AI モデルですが、600 以上のタスクでテストされ、うち 400 で「現時点での最先端レベル (SOTA: State-of-the-Art)」という結果を示しました。
GPT、Megatron、GATO のような汎用モデルと、これらの汎用モデルをベースに特定の目的のために特化したモデルという 2 つの開発ラインは今後も存続するでしょう。 汎用モデルは、汎用人工知能 (AGI) を進化させる上で、そしておそらくは長期的な、より目覚ましい発展を進める上で重要です。 そして特化型モデルは、特定の分野で短期的に実用化されるでしょう。 LLM で注目すべきことの一つは、両方のラインが並行して進化し、機能できることです。
今後どうなるか、興味がそそられます。 引き続き LLM を評価し、結果を公開することで、皆さまにこの心躍る進化の最新情報をお届けします。ChatGPT の翻訳パフォーマンスについて掘り下げた記事、またChatGPT とローカリゼーション、ChatGPT が変革をもたらすと考えられる理由を詳しく説明した記事を公開していますので、ぜひ当社のブログ記事をご覧ください。
—ラファ モラル、ライオンブリッジ、イノベーション担当バイス プレジデント
10 月 11 日から 11月 1 日にかけて、マイクロソフトの機械翻訳 (MT) の結果に全般的な改善が見られました。Bing Translator による直近の品質向上により、主要な MT エンジンはいずれもよく似た結果となりました。 このため、トップの座を巡って熾烈な戦いが勃発しています。
主要な MT エンジンには、ここ数か月間、目を引く改善は見られませんでした。 このマイクロソフトの進歩がこの傾向を打破し、これらのエンジンの来るべき発展の始まりとなることを期待しましょう。
当社では通常は 1 つの参照訳で測定しますが、今回はさらに複数の参照訳を利用した 2 回目の追跡を行って、マイクロソフトに改善が見られることを確認しました。 今回の MT 評価では、絶対的な基準として 1 つの翻訳だけを正確な訳とするのではなく、複数の正しい翻訳を考慮に入れてより正確な編集距離の指標を測定するために、翻訳者による 10 の参照訳を使用しました。
まもなく本年も終わりを迎えようとしていますが、2022 年の MT の成果はほぼ横ばいでした。 大きな変化は見られなかったので、この Microsoft Bing MT の発展が今年全体で最も顕著な進化かもしれません。 今年の初めにコメントしたように、現在の MT の方法論は停滞期に入っている可能性があります。 2023 年に機械翻訳に何が起こるかを楽しみにしたいと思います。
—ラファ モラル、ライオンブリッジ、イノベーション担当バイス プレジデント
今月取り上げるのはフォーマルな言葉の問題です。機械翻訳 (MT) を使用する際に、この「フォーマルさ」に適切に対応するのが、不可能ではないまでも困難であることについて説明します。
機械翻訳 (MT) エンジンでは、フォーマルさの度合いが不適切な訳文や、フォーマルさに一貫性のない訳文が生成されることがあります。 それは、 MT モデルでは通常、入力セグメントごとに 1 つの翻訳が返されるためです。 入力セグメントに曖昧さがある場合、妥当性のある複数の選択肢の中から 1 つの翻訳を選択する必要がありますが、このとき対象のオーディエンスは考慮されません。 妥当性のある複数の選択肢の中から 1 つをモデルに選択させると、翻訳の一貫性が損なわれる場合や、フォーマルさの度合いが適切でない訳文が生成されることがあります。
ターゲット言語に、ソース言語よりも多様なフォーマルさの段階がある場合は特に、適切な出力を得るのが難しくなります。 たとえば、フランス語では、親密さの度合いによって tu (カジュアルな二人称) と vous (フォーマルな二人称) を使い分けますが、英語にはこのような区別はありません。
ほとんどの MT システムは、フォーマルさの度合いや性別の違いに対応していませんが、進歩は見られています。 現在、DeepL (API) と Amazon (コンソールおよび SDK) には、フォーマルさをコントロールする機能があります。 エンタープライズ向け機械翻訳ソリューションであるライオンブリッジの Smart MT™ では、ターゲット テキストに対して言語ルールを適用することができ、スタイルやフォーマルさの度合いを指定して機械翻訳を生成することができます。
MT の出力でフォーマルまたはカジュアルな言葉遣いに対応するなど、対象のオーディエンスのニーズに合うようにソース テキストを効果的に翻訳することが重要です。 翻訳が少し「ずれている」と感じられたり、失礼だと受け取られたりすれば、オーディエンスに敬遠されるおそれがあります。
MT について、またフォーマルな表現と口語体については、当社のブログ記事をご覧ください。
— ヨランダ マーティン、ライオンブリッジ MT スペシャリスト
機械翻訳 (MT) を使用することでメリットが得られる可能性がありますが、注意して進めていく必要があります。 用語の観点から見た場合に、汎用の MT エンジンは誤った翻訳を出力する場合があり、特に、特定の分野で望ましくない結果につながる可能性があります。 とりわけ医療や法律の分野では、この影響がマイナスに作用するおそれがあります。 しかし、MT の出力を改善するためにできることがあります。
用語集を使用することで、MT の品質を向上させ、正確で一貫性のある翻訳を実現できます。
専門用語を含む、特定の分野に特化したバイリンガル テキストを使用して、カスタマイズされた MT システムをトレーニングすることが不可欠です。 それでもなお、翻訳の正確性を確保することはできません。特定の分野に特化したテキストでエンジンのトレーニングを行ったとしても、用語が一貫性のある形で使用されていない場合があるためです。 この分野の研究では、ニューラル機械翻訳 (NMT) システムに言語情報を組み込むことが提案されています。 手動または半自動のアノテーションの導入は、用語集などのリソースの有無や、時間やコストそしてアノテーションを行う人員の有無などの条件に左右されます。
ライオンブリッジの Smart MT™ では、ソース言語とターゲット言語のテキストへの言語ルールの適用、および特定のプロファイルに追加された「翻訳しない語句 (DNT)」と用語集のリストに基づく用語の適用が可能です。 ライオンブリッジではお客様の用語集の作成と維持管理を支援しています。用語集は、新しい重要な用語を追加し、使用すべきでなくなった用語を除外するなど、定期的に手を入れる必要があります。 Smart MT で用語集を作成すると、すべての MT エンジンで使用できるようになり、時間とコストの節約になります。
MT プロジェクトで用語集をフル活用するのは、想像するほど簡単ではありません。 用語集が不適切に使用された場合、機械翻訳の全体的な品質にマイナスの影響を及ぼす可能性があります。 MT において用語を順守するのに最適な方法は、MT のトレーニングを行うことです。 トレーニング済みの MT エンジン、用語集のカスタマイズ、前処理と後処理のルールの明確化を組み合わせることで、MT の出力において適切な用語が使用され、元の文書と同じようなスタイルが採用されるようになります。
MT の出力を向上させる用語集の使い方について、詳しくは当社のブログ記事をご覧ください。
— ヨランダ マーティン、ライオンブリッジ MT スペシャリスト
多くの企業が日常的な業務でますます機械翻訳 (MT) を活用するに伴い、重大なエラーの拡大を防ぐ必要性が高まっています。
MT による標準的なエラーはスペルや文法、句読点などの言語的要素に関連するものである一方で、 こうした重大なエラーは言語の枠を超えるものであり、MT エンジンによる翻訳が元のメッセージの意図と大幅に乖離することで生じます。 その結果、こうして生じた誤情報や誤解は企業のイメージや財政、または法的な面で問題を引き起こしたり、公共の安全や公衆衛生に有害な結果をもたらしたりする可能性があります。 こういったエラーを特定する方法を確立し、自社の情報伝達力に悪影響を及ぼさないようにすることが重要です。
ライオンブリッジでは、MT 処理のスピードを保ちながら人による関与の必要性を抑えつつ、翻訳されたテキストに自動品質チェックを適用することで、こういった重大なエラーを検出しています。
この自動処理では以下が検出されます。
このような翻訳エラーは MT テクノロジーの改善と進歩を通じて防ぐことができますが、 その域に到達するまでは、当社の自動化テクノロジーを活用することで、翻訳プロセスで生じる問題の特定と修正を行い、高い精度を保つことができます。
機械翻訳で発生する重大な誤りの詳細については、当社のブログをご覧ください。
— ルイス ハビエル サンティアゴ (MT グルーブ リーダー)、
ラファ モラル (ライオンブリッジ、イノベーション担当バイス プレジデント)
Google NMT、Bing NMT、Amazon、DeepL、Yandex — 最も優れたエンジンはどれでしょうか。先月のデータと最新の全般的な動向を見ると、主要エンジンのパフォーマンスは近似しています。そのため、MT に関する戦略を考える上で、MT エンジンによる特定の言語ペアの翻訳のしやすさなど、付加的な要素も考慮に入れることは有意義です。
特定の言語ペアを MT エンジンで処理する上でどれだけの課題があるかを明らかにすることは、複数の言語を対象とした翻訳のコストについて予算を検討する際に大いに役立ちます。たとえば、複雑な言語ペアを扱う場合、高品質な翻訳を実現するにはより多くの労力が必要になります。言語の複雑性について十分に理解しておくことは、ビジネス上の適切な判断につながります。
翻訳しやすさによって言語にランク付けをするのは簡単なことではありませんが、さまざまな指標を用いて評価を行うことができます。編集距離 (機械翻訳によるテキストを人による翻訳の品質まで高めるために、ポストエディット作業を通じて加えられる変更の量) は、それぞれの言語ペアに関する MT の複雑さと翻訳しやすさ (機械翻訳可能性、MTranslatability) を把握するのに役立ちます。
ポルトガル語、スペイン語、フランス語、イタリア語など、ロマンス諸語の多くを英語から翻訳する際は、少ない変更で高い品質レベルを実現することができます。これらのターゲット言語は、機械で処理するのが非常に容易であることが明らかになっており、機械翻訳可能性のランキングで上位 4 位を占めています。ハンガリー語とフィンランド語はどちらもウラル語族の言語ですが、これらの複雑度はより高く、このランキングでは 27 位と 28 位で最下位となっています。同じ語族に属するもう一つの言語であるエストニア語も、複雑度の高い言語の 1 つです。当社が今まで処理してきた数百万に及ぶ文章に基づくこのような結果は、語族の分類が MT の結果に及ぼす重要性を明確に示しています。
言語の比較には限界がありますが、このランキングによって多言語プロジェクトを適切に管理する上で興味深いインサイトが得られます。こちらのブログからライオンブリッジの言語ランキング表全体をご覧いただけます。
—ラファ モラル、ライオンブリッジ、イノベーション担当バイス プレジデント
6 月、Yandex の MT エンジンによるロシア語の翻訳がわずかに改善され、Microsoft Bing の MT エンジンの翻訳結果がわずかに低下しました。 これらは注目すべき変化でしょうか。それとも意味のない偽の結果でしょうか。 確認のため、結果をさまざまに分析しました。
MT 翻訳から翻訳者による単一の「完璧な」翻訳までの距離を測定する単一の絶対的な基準を使用する代わりに、今回は複数の参照訳を使用しました。 機械による翻訳の一つ一つをプロの翻訳者による 10 種類の翻訳と比較しました。 このアプローチを取ると、6 月の Yandex と Microsoft Bing の翻訳品質で見られたわずかな変動は消えました。 このため、MT 翻訳品質に変化はなかったと結論付けることができました。 つまり、6 月の結果は変化なしでした。
データとそのグラフィック表示は、ときに誤解を招くことがあります。 これは、さまざまな測定でわずかな差分が出る場合によく起こります。 結果を正確に解釈するために、複数のアプローチを使ってデータを評価するとよいでしょう。
今後数か月間は MT エンジンの品質にほとんど動きがないと予想されるので、 このセクションを使用して、分析と MT の全体的な見解を提供いたします。 来月は MT の言語ペア間の比較をお届けする予定です。 データを使用して、MT の複雑さによって言語と語族を分類できるかどうかを探求します。さらに、機械翻訳には言語ペアによる得意不得意があるのかを判断する予定です。
—ラファ モラル、ライオンブリッジ、イノベーション担当バイス プレジデント
何よりもまず、今月も MT エンジンに大きな変化が見られない月となりました。
Amazon のエンジンは、英語とスペイン語のペアを処理する方法において継続的な改善が見られており、 今やこの言語ペアにおける主要なエンジンとなっています。 また、英語とスペイン語のペアほどの改善ではないものの、他の言語ペアでもわずかな進歩が見られました。 この進歩は、一般設定の一部変更と、英語とスペイン語のペアに関わる作業の結果によるものだと考えられます。 こうした機能強化が、一部の特殊文字や、測定単位を含む文字列の処理方法に影響を与えているようです。
Yandex では、2 か月連続で細かい改善が見られました。 興味深いことに、この改善もスペイン語に関わるものです。
先述のとおり、大幅な変化はありませんでしたが、 すべてのエンジンで同様の状況がうかがえます。 今後数か月間は特定の MT 領域の分析を行い、全体的な見解を示す予定です。 もちろん、重要な開発事項も確認していきます。
—ラファ モラル、ライオンブリッジ、イノベーション担当バイス プレジデント
Yandex の MT エンジンのパフォーマンスは数か月にわたり横ばいでしたが、特にドイツ語のエンジンについて、ある程度の進展が見られました。
ある詳細な分析では、Yandex エンジンにおいて、疑問符、感嘆符、かっこ、スラッシュなどの句読文字および単位系を含む文の処理で向上が見られました。 このような進歩は、モデルの改善というより、MT の設定の微調整の結果によるものである可能性があります。 ただし、珍しい用語の追跡においても改善が見られたため、Yandex の進歩はモデルの改善またはさらなるデータ トレーニングによるものである可能性もあります。
昨年のこの時期には、いくつかの MT エンジンで興味深い改善が見られました。 このような進歩には、時期的なパターンも関係しているのでしょうか。 2021 年に観察されたようなことが、今年もあるでしょうか。 これらのエンジンの MT 性能を追跡調査していますので、来月以降、確認できた内容についてお知らせします。
全般的に、MT エンジンの評価に対する関心が高まっています。 現在では、MT がテクノロジーとして成熟していることに多くの人が同意するでしょう。 人が介入するかどうかや、ハイブリッドのアプローチを採用するかどうかにかかわらず、ほぼすべての翻訳事例で機械翻訳が有用であることが認識されています。 ただし、MT を使用する場合の MT の結果の評価、測定、改善のための適切な方法については、試行錯誤が続いています。
—ラファ モラル、ライオンブリッジ、イノベーション担当バイス プレジデント
これまでこちらのページをご覧いただいていた方は、汎用的な機械翻訳の比較評価についてはご存知でしょう。 毎月、特定の言語ペアについて最も優れた性能を示す機械翻訳エンジンはどれかを確認し、エンジンの改善状況を追跡しています。 3 月は、それぞれの機械翻訳エンジンの性能の変化は見られませんでした。 この傾向はすでにしばらく続いています。 先月コメントしたように、新しい機械翻訳の方法論が求められているということかもしれません。
ここでは、汎用的な機械翻訳の評価結果をお伝えしていますが、カスタムの機械翻訳の比較評価を求める企業が増えています。 このような評価では、汎用的な評価とは異なり、最もメリットの大きな機械翻訳エンジンを判断するにあたり、企業固有のニーズを考慮に入れる必要があります。
これから機械翻訳を使い始める場合でも、現行の機械翻訳の使い方を改善する場合でも、どの機械翻訳エンジンが最適であるかの見極めが重要です。 当社でカスタムの評価を実施する際は、このページでこれまで説明してきたものと同様のアプローチを採用しますが、コンテンツの種類や言語ペアに関する企業ごとの要件に基づいて推奨事項を提示します。
カスタム機械翻訳の比較評価は長年行われてきましたが、その需要が高まっています。 このような傾向が見られるのは、企業がデジタル市場で成果を上げる上で、機械翻訳が重要な役割を果たしているためだと考えられます。
—ラファ モラル、ライオンブリッジ、イノベーション担当バイス プレジデント
Google の MT エンジンは 2022 年 1 ~ 2 月の間にわずかに改善されましたが、他社の MT エンジンにはこのところ目立った動きはありません。 このような現状を考えるといくつか疑問が湧いてきます。 ニューラル機械翻訳 (NMT) は停滞期に入っているのか? NMT がさらなる飛躍を遂げるには、新たなパラダイム シフトが必要なのか? これと似た傾向は NMT が統計的 MT に取って代わった際にも見受けられました。
統計的 MT の時代が終わる頃は、MT の品質にどのような変化もなく、 他の MT エンジンの品質も統計的 MT の品質に迫る勢いでした。 今回の傾向もこれとよく似ています。 NMT がすぐに他の技術に取って代わられるような状況ではありませんが、飛躍的な成長と利益の増大のパターンに基づいて、ルールベース MT の 30年にわたる運用実績と統計的 MT の数十年に及ぶ優位性を考慮し、NMT の登場からまだ 6 年しか経過していないことを踏まえると、新たなパラダイム シフトはそう遠くないのかもしれません。
—ラファ モラル、ライオンブリッジ、イノベーション担当バイス プレジデント
1 月は、主要機械翻訳 (MT) エンジンの性能に大きな変化はありませんでした。
Google は、いくつかの言語と分野で小幅ながらも継続的な改善を示しました。 その他のエンジンのほとんどでは性能に変化は見られませんでした。 マイクロソフトは、過去数か月間は改善を示していましたが、1 月は横ばいでした。 総じて、Google Translate が、汎用 MT テクノロジーの品質で継続的にリードしています。
12 月に、5 つ目の MT エンジンを調査対象に加えました。 Yandex をモニタリングすることで、ロシア語の MT の品質分析を向上できます。
—ラファ モラル、ライオンブリッジ、イノベーション担当バイス プレジデント
12 月に、機械翻訳品質追跡調査の調査対象として Yandex MT が加わりました。
これまでの試験結果における Yandex の特徴は次のとおりです。
その他のポイントとしては、2021 年最後の数か月でマイクロソフトの Bing は結果が改善しています。特に中国語への翻訳で改善が見られています。 Amazon でも進歩が見られました。 Google は年をまたいでも引き続き、結果が改善されています。 特にスペイン語、ロシア語、ドイツ語への翻訳で改善が見られました。 Yandex については、調査開始からの 5 週間、パフォーマンスに変化は見られません。
—ラファ モラル、ライオンブリッジ、イノベーション担当バイス プレジデント
数週間にわたる実験での全体的なパフォーマンスの変動を見ると、マイクロソフトの NLP エンジニアが何らかの成果を達成したことが予想されます。 Bing 翻訳 (Bing Translator) には過去数週間で全体的な改善が見られ、特に中国語で改善がありました。先月は特に優れた成果を上げた機械翻訳エンジンとなっています。 Bing 翻訳は、多くの分野でこれまでの弱点を解消してきており、いくつかの競合製品のパフォーマンスを上回っています。 Bing 翻訳は以前からトレーニング性能の高いエンジンの一つであり、今回の機能強化により、それぞれのコンテンツに応じてカスタマイズされたモデルを構築する上で優れた選択肢の一つとなっています。
— ジョルディ マシアス、ライオンブリッジ言語エクセレンス担当バイス プレジデント
10 月は、1 か月ほど前からの取り組みを踏まえて Amazon の機械翻訳 (MT) エンジンが引き続き改善されました。このような継続的な改善は、この 2、3 か月の間に導入された改善に続く第 2 弾となっています。
念のため、この 2、3 か月の間で Amazon の機械翻訳エンジンで改善された領域をここにまとめます。
— ジョルディ マシアス、ライオンブリッジ言語エクセレンス担当バイス プレジデント
9 月は Amazon の機械翻訳 (MT) エンジンにとって良い月となりました。まず、ドイツ語とロシア語の MT の品質が改善されました。そして、スペイン語と中国語のペアで品質が大きく改善されました。これらの快進撃は、過去数か月間の間に見られた段階的な改善に続くものです。
Amazon MT エンジンの変化について、詳しくご説明します:
— ヨランダ マーティン、ライオンブリッジ MT スペシャリスト
Microsoft、Google、Amazon、Facebook に加えて、Apple も参入するなど、テクノロジー関連の大企業はすべて自社独自の MT エンジンを開発しています。米国市場外の多くの大企業も、この分野での競争に加わっています。明らかなのは、今日の相互につながりあったグローバルな世界においては、テクノロジー関連の大企業にとって、MT や自然言語処理 (NLP) は必要不可欠なツールだということです。
この分野に注意を払っておきましょう。ライオンブリッジもこの競争を見守っています。最善の MT エンジンのオプションは、企業固有のニーズに応じて、必要とする言語ペアやコンテンツの種類を考慮に入れて判断することになるでしょう。
テクノロジー関連のトップ企業がこぞって投資をしていることからも、MT/NLP に関する競争はますます激しくなることが予想されます。細部や品質へのこだわりのある Apple の参入により、他の企業がさらに一段階上のレベルで戦うようにならざるをえなくなるのは確かでしょう。
—ラファ モラル、ライオンブリッジ、イノベーション担当バイス プレジデント