2019.11.18

ニューラル機械翻訳における「教師あり学習」と「教師なし学習」とは

従来の機械翻訳では、十分な言語データが与えられ、機械が学習していく「教師あり学習」が主流でした。

たとえば、英語や中国語などの豊富な翻訳例をデータとして与えて、AIがそのデータをもとに学習し、機械翻訳の技術が進化してきたのです。しかし、希少言語ではデータとして与える翻訳例が少ないため、AIを学習させるのが難しく、機械翻訳の技術の進化も遅れていました。

そこで、ニーズの高まりを見せているのが、「教師なし学習」です。この記事では、ニューラル機械翻訳における教師あり学習と教師なし学習の違いについて、ご説明します。

ニューラル機械翻訳とは何か

ニューラル機械翻訳とは、人間の脳神経細胞の活動をモデルとしたニューラルネットワークを活用した翻訳のことを指します。

人間の脳は非常に優れた能力を持っており、ただ記憶するだけではなく、学習しながら記憶を定着させています。そんな人間の脳にあるニューラルネットワークの優れた機能と、大量のデータを処理できるコンピューターの能力を組み合わせることで、高い翻訳機能を実現したのがニューラル機械翻訳です。

全世界で広く使われているGoogle翻訳も、ニューラル機械翻訳の技術を用いています。ニューラル機械翻訳が可能となった今、英語や中国語にとどまらず、多くの言語が機械翻訳できるようになりました。

そして、Google翻訳は、ニューラル翻訳の対象言語を英語、中国語、フランス語、スペイン語、ドイツ語、ポルトガル語、韓国語、日本語、トルコ語などの約100言語に広げ、全世界でますます多くの人たちに利用されるようになっています。

教師あり学習と教師なし学習の違い

ニューラル機械翻訳でカギとなるのが、教師あり学習なのか、それとも、教師なし学習なのかということです。この章では、教師あり学習と教師なし学習は何が違うのかを、ご説明します。

教師あり学習
教師あり学習とは、入力(問題)と出力(回答)をセットで与えて機械に学習させることを指します。ニューラル機械翻訳の教師あり学習とは、例文と訳文をセットでデータとして与えることで学習が進みます。そのため、例文と訳文のデータが豊富にあれば、機械的に翻訳の例文や構文を覚えていくことが可能です。豊富な例文と訳文のデータをもとに、何パターンもの翻訳手法を学び、機械翻訳の技術を上げていきます。

したがって、教師となるデータが多ければ多いほど、機械翻訳の学習レベルが進むため、翻訳データが多い英語や中国語などのメジャーな言語では、教師あり学習が主流です。

教師なし学習
教師なし学習とは、問題と答えのセットを与えずに学習させることを指します。教師あり学習に比べると、教師なし学習は教師データがないため機械学習が困難です。答えが与えられないため、過去の入力データの傾向から答えに近いデータを用いたり、与えられた学習データの類似性をもとにデータをグループ化するクラスタリングを利用して学習したりします。

この教師なし学習は、例文や訳文が少ない希少言語の機械翻訳の分野に大きく貢献しています。

希少言語の翻訳に力を発揮する「教師なし学習」

希少言語の翻訳においては、学習データの質と量が求められる教師あり学習から教師なし学習へと関心が向けられています。

英語や中国語などのメジャーな言語は、例文と訳文のデータセットが多いため、教師あり学習が適しています。

その一方で、使用人口が少ないマイナーな言語では、例文と訳文のデータセットが少ないため、教師あり学習をするのが困難です。このように十分なデータがなくても機械学習を実現するために、教師なし学習の技術が生み出されました。

教師なし学習では、例文さえあればそれに対する訳文は必要ありません。例文さえあれば学習を進めることが可能になります。希少言語であっても、その言語の例文のデータだけなら簡単に用意できます。教師なし学習の技術の実現により、希少言語のニューラル機械翻訳が可能となり、十分なデータが得られない希少言語の翻訳に大きく貢献しています。

しかし、あくまでも機械学習による機械翻訳ですから、微妙なニュアンスのずれやミスは発生します。大量の文章を翻訳する際に、機械翻訳は非常に便利ですが、最終的には人間の目によるチェックが必要です。それは、教師あり学習による機械翻訳も例外ではありません。

***

機械翻訳といえば、従来は大量のデータが与えられた中での教師あり学習が主流でした。例文と訳文のセットが十分に用意できるメジャーな言語なら、それが可能です。

一方で、教師なし学習の分野の研究が進み、例文と訳文のセットを十分に用意できない希少言語の機械翻訳も可能になりました。これにより、データが不足している希少言語でも機械学習ができるようになり、マイナーな希少言語の機械翻訳が実現したのです。

今後は、十分なデータセットがなくても機械学習が可能な、教師なし学習のニーズがより高まっていくでしょう。

AI翻訳サービスをお探しの方は、ぜひ株式会社十印へご相談ください。

株式会社十印のAI翻訳サービスはこちら

backtotop