2021.04.15

ニューラル機械翻訳を構成するエンコーダー・アテンション機構・デコーダーとは

機械翻訳の精度は、ニューラル機械翻訳の登場をきっかけに飛躍的に向上しました。ニューラル機械翻訳を利用すれば、原文の種類によっては人間が翻訳したかのような翻訳文が仕上がります。そして、ニューラル機械翻訳を理解する上で重要なものが「エンコーダー」、「アテンション機構」、そして「デコーダー」です。ここでは、これら3つについて詳しくご紹介します。

ニューラル機械翻訳の仕組み

ニューラル機械翻訳とは、人工ニューラルネットワークを使用した機械翻訳のことをいいます。人間の脳のニューラルネットワークをモデルとして設計されたため、従来のルールベース翻訳や統計的機械翻訳では不可能だった自然な翻訳が可能になりました。

人工ニューラル機械翻訳の特徴は、自立的に学習するアルゴリズムが採用されているということです。以前は学習データの量や質が不十分なことから誤訳・訳抜けが起きることが多かったものの、計算機の性能が上がったこと、テクノロジーの発達によってデータ収集が容易になったことから、現在では学習レベルが大きく向上しています。

現在最も幅広く使用されているニューラル機械翻訳は、「エンコーダー」、「アテンション機構」、「デコーダー」の3つのパーツから構成されています。エンコーダーでは、入力文を実数値ベクトルに変換します。アテンション機構では、実数値ベクトルに変換された入力文のどの部分に注目するかを判断します。デコーダーでは、エンコーダーとアテンション機構で行った作業を元にして出力文を生成していきます。

Google翻訳においても、このモデルが採用されています。以下では、エンコーダー、アテンション機構、デコーダーのそれぞれの役割や特徴について詳しくご紹介します。

エンコーダー

エンコーダーでは、入力文に含まれている各単語の意味を実数値ベクトルによって表現します。例えば、「彼女はフランスの女王です」という文章は「彼女/は/フランス/の/女王/です」というように分けられます。

このうちの「女王」という言葉は、「王」を表すベクトルから「男」を表すベクトルを引き、「女」を表すベクトルを足すことで表現されると考えられています。複数のベクトルを利用することで、数百次元ともいわれる実数値ベクトルへの変換が可能になります。エンコーダーのための学習には大規模コーパスを利用することも可能ですが、一般的にはネットワークの一部として行われます。

ただし、この方法では「彼女」、「フランス」、「女王」などの意味のある単語しか表現することができません。「は」、「の」、「です」などの助詞や前置詞の役割は入力文によって異なるため、他の単語との関係性を考慮して表現する必要があります。そこで重要となるのが、「リカレントニューラルネットワーク」です。

通常のニューラルネットワークは、情報を一方向に伝達することしかできません。しかし、リカレントニューラルネットワークは自身の出力に対してフィードバックする機能を兼ね備えています。これによって、前の単語と後ろの単語の両方を考慮したうえで表現することが可能になります。

アテンション機構

エンコーダーとデコーダーをつなぐ役割を果たすのが、アテンション機構です。アテンション機構で重要な単語を決定することで、デコーダーで出力する際の判断材料にすることができます。

アテンション機構では、重要な単語を入力文のうちの1つに決めるということはしません。入力文に含まれているすべての単語に対して、注目する確率を出します。例えば「彼女はフランスの女王です」という文章であれば、「フランス」、「女王」などの単語に高い確率が割り当てられる可能性が高いといえます。そして、すべての単語の確立を足すと1になります。

各単語の確率が決定したら、各単語の実数値ベクトルとアテンションを掛け算して足し合わせます。この結果は「コンテキストベクトル」と呼ばれます。

デコーダー

デコーダーは、1つのリカレントニューラルネットワークから構成されています。エンコーダーとアテンション機構から算出したコンテキストベクトルを用いることで、単語を出力していきます。このときに使用されるのが、「ソフトマックス関数」です。これを利用することによって、最も確率の高い単語の出力が可能になります。

機械翻訳なら十印にお任せください

ニューラル翻訳は、それまでの機械翻訳の常識を大きく覆しました。そして、ニューラル翻訳モデルの機械翻訳は「AI翻訳」と呼ばれます。

十印では、国立研究開発法人情報通信研究機構(NICT)と技術提携をし、AI翻訳ツール「T-tact AN-ZIN®」を提供しています。国立研究開発法人情報通信研究機構(NICT)では、オールジャパン体制で機械翻訳の精度を高めるための研究を行い、最新技術を用いた機械翻訳エンジンを作成しています。当社提供の「T-tact AN-ZIN®」では、NICT提供のAI翻訳エンジンを簡単な手続き、低コストで利用できますので、機械翻訳の利用を検討している場合は、ぜひ十印にご相談ください。

・十印の機械翻訳「T-tact AN-ZIN®」についてはこちら

・T-tact AN-ZIN®の14日間無料トライアルはこちら

backtotop