2019.09.30

AI・機械翻訳はどのように行われる?メカニズムを解説

入力するだけで自動的に訳文を導き出してくれるアプリを利用する方は、少なくないと思います。このような自動的に翻訳してくれるシステムのことを、人による翻訳を指す「人力翻訳」に対して、「AI翻訳」または、「機械翻訳」と呼びます。

今回は、AI翻訳について、どのように原文が翻訳され、どのように翻訳文が示されるのか詳しく解説していきます。

AI・機械翻訳の種類と翻訳メカニズム

冒頭では、機械翻訳を一括りに表現しましたが、機械翻訳は翻訳方法によっていくつかに分類されています。機械翻訳の分類について簡単に解説していきます。

ルールベース機械翻訳

ルールベース機械翻訳とは、古典的かつオーソドックスな翻訳方法です。一般的に機械翻訳と聞いて思い浮かべられるのはこちらのタイプになるかと思います。

ルールベース機械翻訳は、過去に記憶された単語や文法上の用例をもとに言語を翻訳します。大まかな流れは下記のように進みます。

原文→ 構文解析・意味解析→ 訳文に変換→ 辞書データから不足分を補填→ 翻訳文 の流れで翻訳されます。

実際の文章を例に挙げると
“I have a red apple” を訳す場合、

“I” “have” ”a” “red” “apple“
と単語に切り分け、辞書データを照会します。すると

「私は」「持っている」「赤い」「りんご」となり、これを訳言語の文法的に整理し、

「私は、赤いリンゴを持っている。」という文章に翻訳されます。

このようにルールベース機械翻訳はシステムとしても分かりやすく、原文が正しいという条件下であれば便利に使うことができます。その一方で、現実的に「私は赤いリンゴを持っている」といった場合、「俺は赤いリンゴを持っている」「うちには赤リンゴをあるよ」など、口語では何通りもの言い方があるので、ルールベースの機械翻訳では対応が難しくなるという課題点があります。

ルールベース翻訳は、機械翻訳の黎明期を支えました。ただ構文解析後の変換過程で定まっているルールは多種多様で複雑に関連付けされています。さらに、原則として手動でルールを追加しなければいけなかった手間もあり、歴史とともに統計的機械翻訳へと変わっていきました。

統計的機械翻訳

統計的機械翻訳は、インターネットとコンピュータの進歩とともに発達してきた翻訳方法です。ネットを通じて集積可能となった膨大な対訳データを学習することで、ルールベース機械翻訳の弱点を補えるようになりました。

単語レベルの意味でしか扱えなかったデータも、「文章」や「段落」レベルで原文と訳文をデータベースとして作れるようになりました。

統計的機械翻訳のイメージとしては

“I have a red apple.” = 「私は赤いリンゴを持っています」
“Apple is red.” = 「リンゴは赤いです」
“My Apple is delicious.”=「私のリンゴはおいしいです」

といった原文と訳文を頻度と、一致度などと合わせて実際に人が機械翻訳を使って訳した文書の文脈や、ニュアンスを学習していきます。

また、上記で例に挙げた「私は赤いリンゴを持っています。」の訳文も、「私のリンゴは赤以外にあり得ない」や「赤いといえばうちのリンゴ」といった似た意味の文章にも対応可能にすることで、表現方法が違っても最終的には一つの「I have a red apple.」という訳文を作成できるようになります。

世界的には英語、中国語、スペイン語などが主要な言語であり、いずれも文法的に類似しています。しかし、特徴的な文法構造を持つ日本語は少数派で、これらの主要な言語とも文法構造が異なります。そのため日本語の翻訳には高い技術が必要とされ、開発にも独自のノウハウが必要であると考えられています。

統計的機械翻訳ですが、昨今よく聞かれる「ディープラーニング」によってさらに進化しました。次に、統計的機械翻訳型の1つであるニューラル機械翻訳について見ていきます。

ニューラル機械翻訳

ニューラル機械翻訳は、2016年にGoogle翻訳が採用したことで話題になった統計的機械翻訳からさらに進化した翻訳方法です。

ニューラル機械翻訳とは、人間の脳機能に見られるいくつかの特性に類似した数式モデルのニューラルネットワークと、人間が自然に行うタスクをコンピュータに学習させる「ディープラーニング」を導入した、人工知能による翻訳システムのことです。

ニューラル機械翻訳によって、統計的機械翻訳では制限されていた範囲が広がり、さらに文書単位での翻訳候補の検索や、画像情報からの翻訳といった高度な技術によって、より人間が感じる感覚に近い形での翻訳対応が可能になりました。

ただし、珍しい単語が出てくる専門分野やジョークやギャグといった、修辞的な表現が含まれると、まだ上手に訳せないこともあります。

***

今回は、AI翻訳および機械翻訳のメカニズムについて解説しました。AI翻訳も発達しており、今後の動向から目が離せません。話し言葉の翻訳はまだ難しいようですが、近い将来に改善が見込めるのではないでしょうか。

当社は、日本の機械翻訳システムの黎明期から翻訳システムの開発や提供に取り組んでいます。上記のニューラル機械翻訳を使ったAI翻訳サービスで、国産の翻訳システムやGoogle翻訳を安全にご利用いただけます。また、WordやExcel、PowerPointなどのファイルをそのまま翻訳できるサービスなどもご提供しておりますので、AI翻訳のご検討の折には、ぜひ当社にご相談ください。

十印のAI翻訳サービスについてはこちら

backtotop