機械翻訳が進化する！？「マルチモーダル学習」とは

TOP
blog
機械翻訳が進化する！？「マルチモーダル学習」とは

2020.03.23

機械翻訳が進化する！？「マルチモーダル学習」とは

マルチモーダルとは、Multi（複数）とModal（様式）を組み合わせたコンピューター用語です。発展著しい機械翻訳ですが、近年ではマルチモーダル学習によってさらに進化していくのではないかと期待されています。

ここでは、マルチモーダル学習の内容や歴史、機械翻訳サミットで発表されたマルチモーダル学習についての研究結果などについてまとめました。

マルチモーダル学習とは

私たち人間は、常に様々な種類の情報を五感から取り入れています。視覚だけ、聴覚だけなどではなく、視覚、聴覚、嗅覚、味覚、触覚をすべて使うことによって抽象度の高い情報も処理することができます。これは、テレビやYouTubeなどにおいても同様です。画像、テキスト、音声など多くのデータを利用することによって、はじめて私たち視聴者が正しく情報を受け取ることができます。

そして、マルチモーダル学習とはいくつかの異なる情報を用いた機械学習のことをいいます。人間と同じような形で複数の情報を取り込んで統合的に処理をすることで、より人間の感覚に近い翻訳が可能になると考えられています。現在のAI技術は五感のうちのどれかに特化しているものがほとんどですが、マルチモーダル学習が発展すれば、機械翻訳は大きく変化するかもしれません。

マルチモーダル学習の歴史

マルチモーダル学習の研究が始められたのは、1986年頃です。最初の頃の研究は、「lip reading」と呼ばれる唇の動きから話している内容を読み取るものや、音声と唇の動きの画像の2つを用いてより正しく音声認識をするものなどがほとんどでした。

そして2013年に始められた研究が、テキストと表情、音声をリアルタイム合成させる「Expressive Visual Text to Speech」というものです。テキストを入力すると、画面内の人物が内容に合った表情で話をします。嫌な内容のテキストなら怒った表情で、嬉しい内容のテキストなら楽しそうな表情で話をさせることを可能にしました。

「Audio-Visual Emotion Recognition」は、音声と画像の2つを用いて人間の感情を認識するという研究です。この研究については、競技イベントも開催されたとのことです。

この他にも、画像の説明文を自動で作成する「Image to text」やテキストに合う画像を作成する「text to image」、画像に関連する質問をすると回答する「Visual Question Answering（VQA）」など、様々な研究がなされてきました。これからは、より高度な研究が進められていくのではないでしょうか。

機械翻訳サミットの研究結果

2019年11月19日にアジア太平洋機械翻訳協会によって開かれた機械翻訳サミットでは、東京大学の中山英樹氏によって「マルチモーダル情報と機械翻訳」についての講演が行われました。この講演の中では、マルチモーダル学習を用いた機械翻訳の評価結果が発表されました。

機械翻訳の評価にあたって用いられたのは、BLEUスコアです。BLEUスコアは機械翻訳の訳文と参照文（人間が作成した理想的な訳文）がどの程度類似しているかを公式に当てはめて算出したもので、数値が高ければ高いほど評価が高くなります。

データが画像だけのもの、テキストだけのもの、画像＋テキストのものを比較したところ、IAPR-TC12においては画像＋テキストを用いた場合が最もBLEUスコアが高いという結果になりました。しかし、Multi30Kにおいてはテキストだけの場合のBLEUスコアが最も高く、画像＋テキストにするとBLEUスコアがやや下がってしまったとのことです。

またIAPR-TC12においても、画像＋テキストの場合とテキストだけの場合の差はわずかなものでした。このことから、マルチモーダル学習を用いた機械翻訳の精度は現時点ではまだまだだといえるでしょう。

マルチモーダル学習の可能性

現在はまだ発展途上だといえるマルチモーダル学習ですが、間違いなく大きなポテンシャルを秘めています。マルチモーダル学習を重ねていくことにより画像や音声をはじめとした複数の感覚データを組み合わせられるようになると、行動予測や環境認識、さらには感情理解にもつながる可能性があります。

これらを通してコンピューターが物事をより正しく理解できるようになれば、言語理解も進み、機械翻訳の質も向上するといえるでしょう。現在はマルチモーダルな認識の研究が進められている段階であり、最終的な言語理解までには長い道のりがあります。しかし言語理解まで辿りついた折には、今では考えられないレベルの機械翻訳が実現するかもしれません。

＊＊＊

ここでご紹介したように、マルチモーダル学習は機械翻訳の質を飛躍的に向上させる可能性を秘めています。機械翻訳だけではなく、様々な分野において大きなインパクトをもたらすかもしれません。しかし、現時点ではBLEUスコアも低く、実用化は難しいのが実情だといえるでしょう。

とはいえ、マルチモーダル学習が実用化されていない現在でも機械翻訳のレベルは確実に上がっています。十印では、1980年代から機械翻訳に力を入れてきました。お客様に翻訳エンジンを提供するのはもちろんのこと、プリエディットやポストエディットも含めて機械翻訳の運用をトータルサポートさせていただきます。翻訳についてお困りの際は、ぜひ十印にご相談ください。

十印の機械翻訳についてはこちら

お問い合せはこちら　→

翻訳・ローカライズ

トランスクリエーション

動画（映像）翻訳／制作

AI翻訳（機械翻訳）

ポストエディット

DTP・デザイン

機械翻訳が進化する！？「マルチモーダル学習」とは

マルチモーダル学習とは

マルチモーダル学習の歴史

機械翻訳サミットの研究結果

マルチモーダル学習の可能性

サービス

サイトコンテンツ

会社概要

お問い合わせ