2020.03.02

機械翻訳の評価に最もよく用いられる「BLEUスコア」とは

近年では、機械翻訳の飛躍的な精度の向上が注目されています。そして、機械翻訳の精度を評価するときによく使用されているのが「BLEUスコア」です。ここでは、BLEUスコアの概要や計算方法、そして欠点についてまとめました。

BLEUスコアとは

BLEUスコアは、現在最も広く使用されている機械翻訳の評価方法です。この評価方法の前提は、「プロの翻訳者の訳と近ければ近いほどその機械翻訳の精度は高い」というものです。現在では機械翻訳の精度はプロの翻訳者に及ばないため、これは理にかなった考え方だといえます。

翻訳の正解は1つではないことがほとんどであるため、BLEUスコアでの評価を行う際には正解となる訳を複数用意します。そのうえで、計算式を用いて一致度を算出します。なおBLEUスコアは0~1の間の実数で表現され、その数値を100倍し、スコアが100に近ければ近いほど評価が高くなります。目安としては、スコアが40以上であれば高品質といえます。

BLEUスコアの計算方法

BLEUスコアは、以下の式を用いて機械翻訳結果と参照訳の類似度を算出します。
\[
BLEU=BP_{BLEU}×exp(\sum_{n=1}^N w_nlogp_n)\
\]
ただし、
\[
p_n=\frac{\Sigma i翻訳文iと参照訳iで一致したn-gram数}{\Sigma i翻訳文i中の全n-gram数}
\]

\[
w_n=\frac{1}{N}
\]
とします。

BPBLEUとは、翻訳文が参照訳より短い場合のペナルティです。翻訳文の方が長い場合は、BPBLEU は1であり、ペナルティはありません。

そして、N-gramとは「隣り合う連続したN文字」という意味で、例えば2文字の場合であれば2-gramとなります。BLEUスコアにおいては通常はN=4として計算されます。

BLEUスコアの欠点

機械翻訳の評価によく用いられているBLEUスコアですが、欠点もあります。BLEUスコアを参考にする場合には、欠点も把握しておく必要があるといえるでしょう。

字面しか考慮していない
ここまでご説明した通り、機械翻訳の翻訳文が参照訳と近ければBLEUスコアは良い結果となります。しかし、このときに考慮されるのは字面のみであり、類語が使われたときには参照訳と異なるとみなされてしまいます。そのため、翻訳文に何の問題もないにもかかわらずBLEUスコアが低く出る可能性は十分にあります。

その一方で、翻訳文の内容が原文と変わってしまっているにもかかわらずBLEUスコアが高く出るというケースもあります。例えば文章に「not」が入る、あるいは抜けるなどの誤訳があれば、文章の意味は真逆になります。しかし、その他が完全に合致すればBLEUスコアは100に近くなる可能性が高いといえるでしょう。

語順を考慮していない
BLEUスコアにおいては、語順があまり評価に反映されません。確かに、語順が違っても内容が変わらない場合は少なくありません。しかし、語順が少し変わるだけでも文章が不自然な印象になることはよくあります。また、場合によっては内容が変わる、あるいは他の解釈もできるような文章になるかもしれません。

人間が翻訳文の評価をするときによく用いられる基準として、「理解容易性」と「忠実度」があります。理解容易性とは、機械翻訳による訳文がどれだけ自然かを評価するものです。そして、忠実度では原文の情報をどれだけ正しく反映しているかを評価します。BLEUスコアでは、忠実度の評価はできても理解容易性の評価は不十分だといえるでしょう。

人間の評価と大きく異なる場合がある
BLEUスコアで出した評価が、人間の評価と大きく異なる場合は少なくありません。例えば、人間が高い評価を付けた訳文と低い評価を付けた訳文のBLEUスコアがほぼ同じになることもあります。

BLEUスコアは自動で値が算出できるため人間の手で評価するよりも短時間で済み、非常に便利です。しかし、評価の正確性はやはり人間にはかないません。BLEUスコアと人間の評価の相関性は高いという研究結果もありますが、例外もあることからBLEUスコアをただ鵜呑みにするのは危険だといえるかもしれません。

評価の妥当性は未知数
BLEUスコアは機械翻訳の評価においてしばしば用いられているものの、その妥当性は十分に吟味されているわけではありません。中国語と英語、アラビア語と英語などの言語ペアでの研究はあるものの、日本において需要の多い中国語と日本語、英語と日本語などの言語ペアでの研究はそれほど進んでいないようです。

「他の言語ペアでの研究結果とさほど変わらないのではないか」と考える方もいるかもしれませんが、BLEUスコアの妥当性は言語同士の相性によって変わり、文法構造が異なる言語同士ではBLEUスコアと人間の評価に差が生まれやすいことが分かっています。

そのため、現在では日本語の翻訳におけるBLEUスコアの妥当性は未知数です。今後しっかりとした検証がなされて妥当性がはっきりすれば、BLEUスコアの使われ方も変わってくるかもしれません。

***

ここでご紹介したBLEUスコアは、機械翻訳の自動評価には欠かせないものだといえます。しかし、現状ではBLEUスコアが高ければ安心とは言い切れないといえるでしょう。

十印では、長い経験の中で培った技術とノウハウを最大限に生かした質の高い翻訳を提供しています。翻訳についてお悩みがあれば、ぜひ十印まで気軽にお問い合わせください。

AI翻訳(機械翻訳)についてはこちら

十印のAI翻訳サービスT-tact AN-ZIN®についてはこちら

T-tact AN-ZIN®無料トライアルはこちら
無料トライアルバナー

T-tact AN-ZIN®導入事例はこちら
導入事例バナー

backtotop