機械翻訳の仕組みとは?二つの翻訳方式や革新的技術の「ニューラル機械翻訳」について
日本企業の海外進出が進む中、求められているのはスピーディーかつ精度の高い翻訳です。
そこで活躍の場を広げているのが、「機械翻訳」です。さらに数年前には、一般の機械翻訳をさらに進化させた、「ニューラル機械翻訳」という方式も生まれました。今、機械翻訳の世界は激変しています。
ここでは、近年技術が進歩し精度が上がっている機械翻訳やニューラル機械翻訳について、詳しくご説明します。
機械翻訳における二種類の翻訳方式
機械翻訳には、大きく分けて「ルールベース型」と「統計翻訳型」の二種類がありました。
この二つの方式について、ご説明します。
ルールベース型
ルールベース型はルールや辞書に沿って正確に訳す機械翻訳です。ルールベース型は、ルールやアルゴリズムどおりプログラムが動くことで翻訳が完成する方式です。ルールに従い、文法と辞書を用いて訳文を作る方式です。
この方式の強みはルールと辞書をしっかり作成していれば正確かつ揺らぎのない翻訳ができる点です。訳出された訳文の根拠を説明することができます。
弱みとしては、最初にしっかりしたルールの策定と辞書を用意しなければならないため非常に手間がかかります。直訳するため意味は通っても、機械的で不自然な訳になったり、慣用句や口語がまったく別の意味になってしまったりすることもあります。
統計翻訳型
統計翻訳型は、インターネットの登場とコンピュータの進歩によって発達した、ルールベース型より新しい方式です。原文と訳文のセットである「対訳コーパス」と呼ばれるデータをもとに、機械翻訳を行っていきます。インターネット上にあるこれまでに人によって訳された原文と訳文のセットを手に入れて「対訳コーパス」として活用することで大きく発達しました。
この方式の強みは、高性能にするには大量の対訳データが必要ですが、学習自体はコンピュータがするため手間がかからない、特定の分野向けにコンピュータのトレーニングをすることができる、などがあります。すでに大量の翻訳データを保持している場合は、すぐに高性能な翻訳システムが構築できます。
弱みとしては、正確な訳でないこともある、機械学習環境の準備にコストがかかる、訳出された訳文の根拠が説明できないという点があります。
精度が革新的に向上したニューラル機械翻訳とは
統計翻訳型を進化させたのが、「ニューラル機械翻訳」となります。これはディープラーニングという理論が確立されたことに大きく起因します。
人間の脳を模倣した仕組みである、ニューラルネットワークを取り入れた理論は、1900年代半ばより既に存在していたのですが、学習し、思考するようなレベルには到底及びませんでした。ところが、2006年になり、その問題を解決へと導く画期的な理論が発表されます。それがディープラーニングという理論でした。これはニューラルネットワークを多層構造にするというものです。ディープラーニングにより、データに含まれる特徴をより深く学習することが可能になります。「学習」と「思考」を目指す技術が一気に躍進したのです。
こうして統計翻訳型の翻訳精度も飛躍的に向上します。実は、統計翻訳型にも問題がありました。それは対訳コーパスだけでは翻訳はできず、訓練によって「似たような意味の文章」や「似たようなフレーズ」を対応させる必要があるのです。この学習の性能レベルが統計翻訳型の精度の鍵となっていました。
ディープラーニングの技術が発達するにつれ、統計翻訳型の学習性能がこれまでの比にならないほど高まります。今では従来の統計翻訳型と、ディープラーニング導入以降のニューラル機械翻訳を別物とする見解が主流となってきているほどです。
ニューラル機械翻訳の代表的なものが世界的にはGoogle翻訳、日本では総務省が中心となりコーパスを収集しているNICT(国立研究開発法人情報通信研究機構)のエンジン(みんなの自動翻訳@TexTra®)です。Googleは、世界的なネットワーク上のデータを駆使して、ニューラル機械翻訳を実現、NICTは総務省が指揮をとり、日本語を中心としたコーパスを収集し、エンジン学習を行っています。
***
機械翻訳の技術は、ここ数年で一気に向上し、ニューラル機械翻訳の技術が、現在の機械翻訳分野のトレンドです。ニューラル機械翻訳は、対訳コーパスさえあれば機械学習を行い、独自のエンジンを作成することも可能です。今後も、ニューラル機械翻訳の技術は進歩することが予想されています。
十印では、このような最新の機械翻訳技術と長い経験の中で蓄積してきた翻訳ノウハウを融合し、質の高い翻訳をお客様にご提供しています。翻訳業務でお困りのことがあれば、ぜひ十印にご相談ください。