言語を選択する:

ニューラル機械翻訳: 翻訳において人工知能 (AI) が果たす役割

マーケティングを専門とする方々にとっては周知の事実ですが、ビッグ データの爆発的増加は、企業が業務を効率化して業務革新を実現する上で革命的な変化を引き起こしました。そして、その影響は現在に至るまで続いています。専門家の予想によれば、データ量は今後も前年比 40 パーセントまで増え続けるそうです。

言うまでもなく、データ活用の効率的な方法を見つけたからといって万事解決とはいきません。企業は莫大な量の情報を取り扱わなければならないという問題に直面します。しかし、ビッグ データには大きなチャンスもあります。1つは、ローカリゼーションを経由してビジネスをグローバルに展開できることです。

データの爆発的増加以外にも、ローカリゼーション業界に変化をもたらしている要素が 2 つあります。1 つはコンピューターの飛躍的な成長、もう 1 つはディープ ラーニングと呼ばれる分野に対する注目の高まりです。ディープ ラーニングは Google が使用しているマシン ラーニングの一種で、画像や音声を認識するアルゴリズムを搭載しています。

これらの要素を考慮すると、近年、ディープ ラーニングが翻訳およびローカリゼーション業界に旋風を巻き起こし、ニューラル機械翻訳 (NMT) として知られるテクノロジーが生み出されたことは驚くべきことではありません。結果的に、データ量の増大とテクノロジーの進歩に比例して、翻訳可能なマテリアルも増加しています。では、NMT とは一体どのような技術で、ローカリゼーションをどのように効率化するのでしょうか。

最近開催されたウェビナーでは、ライオンブリッジで機械翻訳部門を統括するジェイ マルシアーノが、この新たに登場した高精度の翻訳手法の有用性と、それが業界の発展にどのように貢献するかについて説明しています。

ニューラル機械翻訳 (NMT) の仕組み

ニューラル機械翻訳 (NMT) とは、2014 年の末に初めて紹介された比較的新しい考え方です。それ以前、機械翻訳は統計モデルを採用しており、翻訳メモリと呼ばれる過去に翻訳された翻訳のデータベースに依存したマシン ラーニングを行っていました。

NMT では統計的な機械翻訳と同じくトレーニングに翻訳メモリを使用する一方で、ディープ ラーニングと膨大な量のトレーニング用データを使用し、人工的なニューラル ネットワークを構築します。

マルシアーノがチェスを例に挙げて、統計的機械翻訳がどのように機能しているかを説明します。チェスのプログラムには、使用する駒の動きを制限するルールが全体的に適用されています。プログラムは可能性のある打ち手をすべて算出し、最善の打ち手を見出すだけです。同じように、SMT システムでは n グラム (一つのセンテンス内の 6 ワードの単語グループ) を比較することでマシン ラーニングが行われます。元の言語のソース センテンスだけでなくターゲット言語 (翻訳先の言語) も対象とし、相関関係を探っていくのです。

一方で、ニューラル機械翻訳はニューラル システムを「引き上げる」ものと表現されることがあると、マルシアーノは語っています。まるでピアノを弾くように、弾き間違えたら、立ち戻り、もう一度弾き直して、正確に弾けるようになるまで繰り返すのです。ニューラル MT システムがニューラル ネットワークを経由して答えを見つけようとするのも、これと同様です。

このような意味で、ニューラル MT は、限定的で不正確なことも多い n グラム ベースのモデルよりも断然効果的な手法だといえるでしょう。一例を挙げると、NMT システムは GPU (グラフィカル プロセッシング ユニット) で実行するため、SMT システムが使用する CPU (セントラル プロセッシング ユニット) よりも強力です。SMT システムではルールベースの古いシステムよりも時間がかかったのと同様に、ニューラル MT では膨大な関連データを処理するため、センテンスを翻訳するのに時間がかかるのは事実ですが、SMT には、ルールが 6 ワードのユニット外で発動するという、言語面での大きな問題があります。

もちろん、NMT にも問題がないわけではありません。例えば、技術的に専門性が高いコンテンツを翻訳する場合です。ソース マテリアルに不明な技術略語があった場合、NMT では満足のいく成果物を得ることができない可能性があります。ただし、これは NMT に限った問題ではなく、どの翻訳システムを使用しても完全に正確な訳を実現することはできないでしょう。トレーニング データがそれほど豊富にない言語の組み合わせ、例えばドイツ語から韓国語への翻訳の場合などは、ディープ ラーニングではトレーニング データを他の言語のソース マテリアルから間接的または「ピボット」して調達することが可能です。

NMT と SMT の主な違いとは何でしょうか。トレーニング マテリアルをディープ ラーニングのアルゴリズムに追加する際は、調査の対象を必ずしも指定する必要はありません。ソース センテンス周辺から得られるコンテキスト情報など、システムが自発的にパターンを見つけるようにします。しかし、そのプロセスの詳細は依然として、多くの点で謎に包まれています。

ニューラル MT とビッグ データ: 能力の制限を取り払う

ニューラル ネットワークが最初に用いられたのは、画像認識とスピーチ認識のプログラムでした。メタデータがアタッチされた犬の写真など、「教師データ」(正しくラベル付けされたデータ) を使用してシステムをトレーニングしたのです。メタデータを読み取ることで、システムは画像のコンテンツを犬として特定できるようになります。

その後、システムはニューラル ネットワーク経由で最適な方法を見つけようとし、情報を関連付け、立ち戻りながら、不正確な回答だった場合にはより良い経路を探そうとします。そして最終的には、正しい答えに到達するニューラルな経路を開発するのです。この経路こそ、将来的に注目される要素です。

特定の言語で記録されたセンテンスを読み取るスピーチ認識において、ディープ ラーニングに正しく文字を認識させるための唯一の方法は、できるだけシンプルでストレートなトレーニングを実施することです。翻訳では「ノイズの多い」トレーニング マテリアルを対象とするため、より複雑なタスクになります。

しかし、マルシアーノによれば、私たちはディープ ラーニングとビッグ データにより、能力の限界を取り払って世界を異なる角度から観察し、分析することができるようになるとのことです。ビッグ データは膨大な量を算出するため、複雑なパターンやパターン間の関連性を人間の認識能力を超えて認識することができます。

しかし同時に、NMT プロセスのイメージ図を構築することは容易ではありません。プロセスの大部分は複雑なデータの「隠れたレイヤー」の内部で処理されるため、ニューラル ネットワークが実際どのような処理を行っているかを視覚化することは困難です。

そのため、必然的に人間はトレーニング マテリアルのみを用意し、処理はアルゴリズムに任せ、翻訳が不正確だった場合にトレーニング マテリアルを微調整するという流れになります。ライオンブリッジでは、ニューラル MT の出力に紛れているエラーの検出と除去に当社の GeoFluent を活用しています。

BLEU などの品質評価手法には十分な信憑性がありません。ニューラル MT システムが何らかの理由によって参照訳とは異なる翻訳を選んだ場合、たとえそれが正しい選択であったとしても、その語彙を選択したことに対してペナルティーが課される仕組みであるためです。

ニューラル ネットワークと通信の未来

ニューラル ネットワークをデバッグしてその意思決定を理解するのは簡単ではありません。しかし、ニューラル MT によって生成・出力される文章がより自然なものになるならば、積極的に検討する価値があると言えます。では、機械翻訳を取り扱うベンダーで、他にニューラル MT を提供しているベンダーはいるのでしょうか。

一言で言うならその答えは「いいえ」です。現在インターネット上で利用可能なニューラル MT システムには、Google 翻訳 (どのコンピューター支援翻訳 [CAT] ツールとも連携可能)、Microsoft Translator、Systran Pure Neural Machine Translation の 3 つがあります。しかし、完全なトレーニングを済ませたプロダクション対応可能なレベルのシステムという点で、当社のシステムは他の競合よりも一歩先をリードしていると言えます。Microsoft、Google、Systran、Baidu、Facebook、Amazon、その他のベンダーからの NMT システムに関する今後の発表にご注目ください。

まずは、SMT システムからの大きな改善が顕著に見られる言語ペア (方向も含む) において、ニューラル MT の導入が行われるでしょう。ライオンブリッジでは、今後、利用可能なニューラル翻訳システムの評価を実施する予定です。当社ではこれらのツールを導入する前に、当社のローカリゼーション プロセスとの適合性を評価し、お客様のニーズを満たすことができるかどうかを確認します。MT の最新情報については、機械翻訳のソート リーダーシップに関する当社の記事をご覧ください。

一つ確かなことは、ニューラル MT が業界を根本的に変える力を秘めたテクノロジーだということです。特にニューラル MT が登場してまだ間もないことを考えると、翻訳における改善という点では、すでに過去 10 年間と比較にならないほど大きな影響が出ています。従来の翻訳と機械翻訳の差は、今後も縮まっていくでしょう。当社はその差をできるだけ縮めるべく日々研究に励んでいます。

ニューラル MT のメリットとマシン ラーニングの未来に関する当社の見解については、「Neural MT: What It Is, and How It Impacts Translation Efficiency」ウェビナー (英語) をご視聴ください。

linkedin sharing button
  • #blog_posts
  • #translation_localization

Lionbridge
著者
Lionbridge