2021.04.15

人の表情・振る舞いを用いた機械翻訳の精度評価について

グローバル化が進展するとともに多言語で情報提供をする機会が多くなり、機械翻訳はますます重要な役目を果たすようになりました。しかしながら、機械翻訳の導入の障壁となっているのが誤訳の問題です。以前と比べると飛躍的に質が向上した機械翻訳ですが、それでも誤訳が全くないわけではありません。

そこで必要となるのが、機械翻訳の精度評価です。ここでは、近畿大学で研究されている人の表情・振る舞いを用いた機械翻訳の精度評価について「機械翻訳における人の振る舞いを用いた誤訳検出(URL: http://friede.elec.ryukoku.ac.jp/is46/pdf/is46_A4-3.pdf)」をもとにご紹介します。

一般的な機械翻訳の品質評価方法

一般的に使用されている機械翻訳の品質評価方法には、「BLEU」と「RIBES」の2つがあります。ここでは、それぞれの品質評価方法についてご紹介します。

■BLEU
BLEUは、機械翻訳において最も一般的に用いられている品質評価方法です。BLEUではプロの翻訳者の参照訳を複数用意し、機械翻訳の訳文がどのくらい参照訳と近いかを評価します。スコアは0~100の間で表され、数字が高い方が評価が高く、40以上であれば質の高い機械翻訳だとみなされます。

翻訳業界において広く使用されているBLEUですが、欠点もいくつかあります。まず、BLEUでは字面しか考慮しないため、参照訳で使用されている単語の類語が用いられた場合には訳文に誤りがなくても低く評価されてしまいます。また、語順を考慮していないのもBLEUの大きな問題点だといえます。使われている単語が同じでも語順が異なると文章として不自然になることが多いため、BLEUは訳文の自然さを評価する方法としては不十分だといえるでしょう。

■RIBES
前述したように、BLEUでは語順の間違いに対して正しい評価をすることができません。そのBLEUの弱点をカバーできる品質評価方法が、RIBESです。RIBESでは、機械翻訳の訳文と参照訳の共通単語に着目した順位相関係数を用いて品質評価を行います。日英翻訳および英日翻訳においては語順が非常に重要であるため、とりわけRIBESは有用だといえるでしょう。

ただし、共通単語が少ない場合には内容が間違っている訳であっても評価が高く出てしまう可能性があります。その問題を回避するために、機械翻訳の訳文と参照訳の間で共通する単語が少ない場合にはペナルティを設けています。

人の表情・振る舞いを用いた機械翻訳の品質評価

BLEUとRIBESの両方に共通しているのは、テキストベースで訳文の質を評価するため評価の精度に限界があるということです。そこで現在研究されているのが、人の表情・振る舞いを用いた機械翻訳の品質評価です。この方法では、機械翻訳の訳文を見た際の人の表情や振る舞いから誤訳を検出します。

この方法の研究では、マイクロソフト社のクラウドプラットフォームAzureで提供されているFace APIを利用して人の表情を数値化しました。これにより、撮影した被験者の表情をsadness(悲しみ)、neutral(中立)、contempt(侮辱)、disgust(嫌悪)、surprise (驚き)、fear(恐れ)、happiness(喜び)の7種に分類ができるようになりました。

次に、機械翻訳の訳文の表情データを取得しました。被験者には評価訳と参照訳の両方を15秒間ずつ読ませ、その後5秒間の間に誤訳があるかどうかを判断してもらいます。また、被験者が評価訳と参照訳を読んでいるときには顔が正面から映るように写真撮影を行います。

そして、写真から得られた表情データと誤訳の有無を照らし合わせました。この結果から、誤訳だと感じなかった場合には表情値の変化が少なく、誤訳だと感じた場合には表情値が一度下がってから元に戻るということが分かりました。さらに15秒間の表情値の分散値を算出したところ、被験者4名中3名においては誤訳だと感じた場合に分散値が高く出ました。

また、機械翻訳に表情データを深層学習させる手法についても研究されました。具体的には、被験者のうちの1つの表情データを機械翻訳に学習させ、その後に学習したモデルを用いて分類を試みました。その結果、表情データの深層学習によって評価値の予測をすることが可能だということが分かりました。

なお、BLEUやRIBESのような自動評価と人間が訳文を評価する人手評価では結果が同じになるとは限りません。どの品質評価方法が適しているかは評価する機械翻訳によって異なるため、適切な方法を選ぶことが大切だといえるでしょう。

精度の高い機械翻訳なら十印にお任せください

ここでご紹介したように機械翻訳の精度評価方法にはいろいろな種類があり、新しい精度評価方法についても研究されています。近い将来には、今以上に的確な機械翻訳の精度評価ができるようになるのではないでしょうか。

十印は1980年代前半から本格的に機械翻訳に取り組み、常に最先端の技術を取り入れてきました。評価方法も含め、機械翻訳をめぐる技術は日進月歩で変化しています。自社で取り扱っている文書が機械翻訳に向いているかどうかの調査や、自社で持っている翻訳データで作成した翻訳エンジンの評価など、機械翻訳に関わるお悩み事がありましたら是非ご相談ください。

・十印の機械翻訳「T-tact AN-ZIN®」についてはこちら

・T-tact AN-ZIN®の14日間無料トライアルはこちら

backtotop