2018.11.06

機械翻訳の課題とソリューション

ディープラーニングを取り入れたニューラル機械翻訳(NMT)の登場により、今まで難しいとされてきた、日英、英日の機械翻訳品質に大幅の改善が見られ、違和感のない翻訳文が仕上がってくるようになりました。一方で、まだまだ機械翻訳をそのままにしておくにはリスクがあります。今回は、機械翻訳の限界と人手のポストエディットの必要性、その補完ポイントについてお話します。

ニューラル機械翻訳とポストエディット

ニューラル機械翻訳(NMT)の登場によって、機械翻訳は大きな進化を遂げたと言われています。ニューラル機械翻訳とは、神経細胞の情報伝達の仕組みを模した“ニューラルネットワーク”を利用した最先端の機械翻訳システムです。平均的な翻訳精度はこれまでの統計的機械翻訳と比較すると格段に向上。それは、人間が文章の“意味”や“コンテクスト”を考えるときと近い回路で文章を構築して行くシステムとを用いているからと言われています。

それにより、ニューラル機械翻訳の訳文は、とても流暢でほとんど違和感を感じない訳文となり、難しいと言われてきた日本語から英語、英語から日本語への機械翻訳活用の部分で注目を集めています。

しかし、エラーがまだあるのも事実。その傾向は従来の機械翻訳とは大きく異なっており、ニューラル機械翻訳特有のエラー(訳語の不統一、訳抜けなどの弱点)が未だあるのも事実としてあります。よって、ニューラル機械翻訳の訳文をそのままにするにはまだまだリスクが多く、ニューラル機械翻訳の後に人手の編集(ポストエディット)をする必要性があるのです。

ただ、人手による時間と労力の削減のために機械翻訳を使いながら、さらに人的な労力をかけるというのもどこかすっきりしないもの。であれば、ニューラル機械翻訳のクセを把握し、人手による補完のポイントを押さえておくことで翻訳作業をより効率的にできると考えられます。

ニューラル機械翻訳のエラーの特徴と人手による補完のポイント

機械翻訳を使わずに一から翻訳する人手翻訳の生産性と、ニューラル機械翻訳+人手によるポストエディットで翻訳した場合の生産性を比較しました。
結果、翻訳量はニューラル機械翻訳+人手によるポストエディットで行なった時の方が生産性は2倍以上であることが判明しました。

同時にいくつかのニューラル機械翻訳のエラーのクセが判明。それは、翻訳は流暢(りゅうちょう)さ(fluency)は完璧に近いが、訳抜けが起こりやすく正確性(adequacy)の点において完璧ではない傾向があるということです。その誤訳の原因はまだ明確にはわかっていないのですが、ニューラル機械翻訳は統計ベースの機械翻訳と比べて大幅に質の良い機械翻訳ということは明らかです。

ニューラル機械翻訳のエラーに対する、十印のアプローチ

ニューラル機械翻訳のエラーの特徴の一つに、文を超えた統一が取れず、下記の例文のように文章全体で「訳語が統一されない」ことがあげられます。
ニューラル機械翻訳の代表であるGoogle機械翻訳では以下のようになります。

原文:
The IBM® Integration Bus web user interface enables web users to access broker resources through an HTTP client, and provides broker administrators with an alternative to the IBM Integration Explorer for administering broker resources.
You can also use the web user interface to work with statistics and accounting data for your message flows.
You can start and stop the collection of snapshot statistics and accounting data, and then display the data in a format that helps you to analyze and tune the performance of your message flows and applications. For more information, see Viewing accounting and statistics data in the web user interface.

訳文:
IBM®Integration BusのWebユーザー・インターフェースを使用すると、WebユーザーはHTTPクライアントを介してブローカー・リソースにアクセスでき、ブローカー管理者はIBM Integration Explorerの代わりにブローカー・リソースを管理できます。
また、Webユーザーインターフェイスを使用して、メッセージフローの統計およびアカウンティングデータを操作することもできます。
スナップショット統計およびアカウンティングデータの収集を開始および停止し、メッセージフローおよびアプリケーションのパフォーマンスを分析および調整するのに役立つ形式でデータを表示できます。詳細については、Webユーザインタフェースの会計および統計データの表示を参照してください。

十印がサービスを展開する「Gen-Pak(ゲンパク)」は、Google機械翻訳をセキュアに使用できるソリューションで、十印独自の手法によりニューラル機械翻訳出力訳への用語集(訳語リスト) の適用を実現し、訳語の“ゆれ”を解消いたしました。

用語集は複数指定して適宜切り替えて使用可能です。

ニューラル機械翻訳のエラーに対する、これからの課題

注意をしなければいけないのは、ニューラル機械翻訳の訳文は、それだけを見るとどれも完璧な文章として成立しているという点です。原文と照らし合わせて初めてエラーが含まれていると気づくことができますが、訳文だけを見てもなかなか気づくことはできません。

ニューラル機械翻訳を用いても、現状は人手によるポストエディットが必要(必要なケースの方がまだまだ多い)ことがわかりました。しかし、ニューラル機械翻訳の特徴を知っておくことで、ポストエディターは流暢さに惑わされずに正確な翻訳文として整えることができます。

先にあげた「訳語が統一されない」以外の特徴は、多義的に解釈できることに起因するエラーや、時制のエラー、純粋なデータ不足など。こうした問題が残っている以上、依然として機械翻訳が人手翻訳と同等のレベルの訳文にするためにはポストエディットが必要であると言えます。

***

十印では、お客様の用途に合わせた機械翻訳ソリューションを展開しています。

●正確ではなくても、おおよその内容がわかればよい場合は、最も簡単な「Gen-pak」

●操作方法は簡単ですが、翻訳後に修正を加えたものを保存することにより、次回の翻訳資産として使用できる「T-tact Ohaco」

●印刷物などに使用できるプロ向けのファイルも翻訳でき、翻訳資産を活用できる「T-tact Memsource」

導入、トレーニング含めて、お客様の用途に合わせてご提案いたしますので、ご相談ください。

backtotop