ニューラル機械翻訳以前を支えた「ルールベース機械翻訳(RMT)」と「統計的機械翻訳(SMT)」
Googleから発表されたニューラル機械翻訳(NMT:Neural Machine Translation)は、機械翻訳のレベルを大幅に引き上げました。一方で、それまでの機械翻訳を支えてきた2つの技術があります。こちらでは、ニューラル機械翻訳以前を支えた「ルールベース機械翻訳(RMT)」と「統計的機械翻訳(SMT)」の概要についてお話します。
ルールベース機械翻訳(RMT)
「ルールベース機械翻訳(RMT:Rule Based Machine Translation)」は、登録済みのルールを適応することで原文を分析し、訳文を出力する機械翻訳の方法です。ここでいう「ルール」は、各言語の「文法」に置き換えられます。機械翻訳の手法としては歴史が長く、数十年前から開発が始められていました。現在もソフトウェアのみで完結する機械翻訳では一般的に採用されている方法です。
データベースに過去に翻訳資産が蓄積されていなくても翻訳できる一方、実務で使用するためには大量のルール登録が必要です。また、言語によってはルール同士が複雑に影響しあうため、ひとつのルール変更による悪影響が、訳文の品質を大きく下げることもあります。さらに、ルールの追加は原則として手動で行う必要があります。
手間や複雑さにより、少しずつルールベース機械翻訳は翻訳現場から姿を消していきました。現在は、旧時代的な機械翻訳方法として認識されています。
統計的機械翻訳(SMT)
「統計的機械翻訳(SMT:Statistical Base Machine Translation)」は、コンピュータに学習用の対訳データを与え、統計モデルを学習させることで訳文を出力させる方法です。対訳データは一般的に「コーパス」と呼称されます。ルールベース機械翻訳の弱点をカバーするとして、注目された方法です。
統計的機械翻訳で高性能の翻訳システムをつくるためには大量の対訳データが必要ですが、学習自体はコンピュータが自律的に行うため手間はかかりません。また、言語に応じてルールを開発して登録刷る必要はないため、多言語に対応した翻訳システムの制作も容易だと考えられています。すでに膨大な対訳データが蓄積されている現場であれば、即戦力となる翻訳システムが構築可能です。
***
現在はニューラル機械翻訳の登場により、上述した2つの技術は現場から消えようとしています。しかし、翻訳現場をこれらの技術が支えてきたのは、紛れもない事実です。株式会社十印は、日本における機械翻訳の黎明期から研究を行い、技術の発展を見守ってきました。今後も最新の技術を積極的に採用し、お客さまに提供する訳文の質と生産性の向上に努めていきます。
AI翻訳(機械翻訳)についてはこちら