2022.01.05

「自動翻訳の精度向上」に向け翻訳データを集積している「翻訳バンク」が目指していることは?

NMT(ニューラル機械翻訳)技術の導入を進めるにあたり、翻訳技術を活用する分野によっては翻訳データが足りないことが課題として挙げられていました。そこで、総務省所管の国立研究開発法人「NICT(National Institute of Information and Communications Technology/情報通信研究機構)」が総務省と共同で、様々な分野の翻訳データを集め活用する翻訳バンクの運用を2017年9月8日よりスタートさせています。

ここでは、産業日本語研究会が2021年3月5日に開催した「第12回産業日本語研究会・シンポジウム」において、この翻訳バンクが行ったセッション「2021年の翻訳バンク・ニューラル翻訳」の内容についてご紹介します。

対訳を使った自動翻訳の進化は加速

機械翻訳(対訳を使用した自動翻訳)の進化は近年になって加速しています。戦後に生まれたルールベースの機械翻訳はRBMT(Rule Base Machine Translation)と呼ばれており、ジョージタウン大学などの研究グループが1954年に機械翻訳システムを発表し、RBMTに必要な技術の研究がスタートしています。

それから30年が経った1984年には用例ベースによる機械翻訳であるEBMT(Example-based Machine Translation)が長尾真氏により提案されました。それから4年が経過した1988年には、統計的機械翻訳であるSMT(Statistical Base Machine Translation)が登場しています。

それからしばらくSMTの時代が続いていたのですが、2014年にディープラーニングを取り入れたニューラル機械翻訳(Neural Machine Translation/NMT)が登場。最初の学術論文が発表されました。さらに2017年には、第2世代NMTとなり、文内の遠い位置にある単語との関係をとらえられるようになりました。

さらに2020年には、対訳コーパスを使用する第3世代のNMTが登場し現在に至っています。自動翻訳がRBMTからEBMTへと進化するのに約40年を要したのに比べ、EBMTから第2世代SMTまでは約20年、第2世代SMTから第1世代NMTまでは約10年、第1世代NMTから第3世代NMTまでは約5年というように、自動翻訳の進化がどんどんと加速。翻訳精度のさらなる高度化に要する時間がどんどん短くなってきています。

第3世代NMTのトピックとしては、Example-based(用例ベース)手法がリバイバルされ実装されたことです。翻訳バンクの全データで被覆率を上げた汎用システムが構築可能となっており、特定分野のデータが100万文~1万文の規模感である場合には分野適応することで高精度システム構築の可能性を持っています。小規模データについては、Example-based手法で個社適応することでさらなる高精度を実現します。

また、数文を参照して翻訳する文脈の流れに沿った翻訳(文脈翻訳)を第3世代NMTでは利用可能となっています。

NMTによる音声翻訳は逐次通訳から同時通訳へ

ここ10年でNMTは大きく進化しています。2010年7月には「VoiceTra」という名称で公開された、逐次通訳で音声を翻訳してくれる多言語音声翻訳アプリが登場しています。2014年6月19日には、「みんなの自動翻訳@TexTra」と呼ばれるテキスト翻訳が一般公開されています。

そしてこれから現れようとしているのは、同時通訳の音声翻訳です。このNMTの機能は2025年に実現すると、総務省とNICTが取り組んでいる「グローバルコミュニケーション計画2025」で発表されています。

逐次通訳と同時通訳を比較してみると、その定義は大きく異なります。

逐次通訳は、話者が話しているときに通訳者はメモなどを取り内容を記録します。話者の話が完了してから通訳を始めるものです。それに対して同時通訳は、話者の話を聞きながら、多少の遅延は生じますが、ほぼ同時に通訳していくものです。

逐次通訳は言葉を認識・翻訳し合成するために、話した時間の倍はかかってしまいます。その点、 同時通訳は言葉を認識したら分割・要約して翻訳し合成するため遅延時間が少ないというメリットがあります。

「グローバルコミュニケーション計画2025」とは、2020年3月31日に総務大臣により発表された計画です。

これまで、NICTおよび翻訳バンクの多言語翻訳技術は翻訳精度の向上や対応言語の拡大を実現してきました。今後2025年に向けては、ビジネス・国際会議における議論・交渉の場面にも対応したビジネス力の強化、政府全体で進める観光戦略や外国人材受け入れ政策を背景とした外国人との共生社会の実現、日本国際博覧会(大阪・関西万博)における日本のプレゼンス向上のため、多言語翻訳技術の飛躍的発展が期待されています。

そこで、これまでの日常生活やビジネスを支える翻訳に止まらず、文脈・話者の意図などを補う同時通訳をNMTで実現しようとしています。NMTによる同時通訳が実現することで、講演・セミナーやプレゼンテーション、観光ガイドなどにおける1対Nの片方向通訳のほか、会議や商談などにおけるN対Nの双方向通訳ができるようになり、同時通訳システムの社会実装が進んでいくことでしょう。

なお、2020年度の第2回日本オープンイノベーション大賞(内閣府主催)において、翻訳バンクの『ビッグデータでAI翻訳を高精度化し翻訳産業に革命を起こす翻訳バンク』という取り組みが評価され、総務大臣賞を受賞しています。(十印も共同の取り組みとして受賞しました)

質の高い機械翻訳をお求めなら十印にお任せください

十印は創業1963年より、ドキュメント制作・翻訳で企業のグローバル展開をお手伝いしてきました。十印は1980年代の日本最初の機械翻訳プロジェクトより協力し、企業への導入支援を行ってきました。十印のご提供する翻訳ツール「T-tact AN-ZIN®」は、NICTが総務省と共に推進している翻訳バンクにより集められた翻訳データを使って作成された高精度な翻訳エンジンを、簡単な手続き、かつ低価格で使用できます。

■十印の機械翻訳「T-tact AN-ZIN®」についてはこちら

■T-tact AN-ZIN®の14日間無料トライアルはこちら

backtotop