機械翻訳に重要な「ビッグデータ」とは
機械翻訳には「ルールベース機械翻訳」、「統計的機械翻訳」、「ニューラル機械翻訳」など、メカニズムによっていくつかの種類に分けられます。そして、統計的機械翻訳において重要な役割を担うものが「ビッグデータ」です。ここでは、統計的機械翻訳の仕組みやビッグデータの概要についてまとめました。
統計的機械翻訳とは
ルールベース機械翻訳、統計的機械翻訳、ニューラル機械翻訳のうち、一番初めに登場した機械翻訳はルールベース機械翻訳です。ルールベース機械翻訳ではシステムに文法規則や変換規則などのルールを登録し、そのルールに沿って原文が分析・訳出されます。この方法は機械翻訳の中でも最も歴史が長く、他の機械翻訳が登場してから用いられることは少なくなったものの、現在でもソフトウェアのみで完結する機械翻訳においては採用されています。
ルールベース機械翻訳の長所としては、訳抜けが起こらないこと、過去の翻訳例が蓄積されていなくても翻訳できることなどが挙げられます。しかし翻訳を行うために登録しなければいけないルールの数は膨大であり、言語によってはルールが複雑であることも少なくありません。さらにルール修正には非常に手間とコストがかかり、ルール修正を行ったことによって翻訳の質に大きく悪影響が出るケースもあります。
このようなルールベース機械翻訳の欠点をカバーできるとして注目されたのが、統計的機械翻訳です。統計的機械翻訳では対訳データをシステムに登録し、統計的手法により訳文を作成します。統計的機械翻訳で質の高い翻訳を実現するためには大量の対訳データを用意しなければいけないものの、学習は機械によって自動的に行われるため手間は少なくて済みます。
また、翻訳する言語の性質による影響が少ないことも統計的機械翻訳の特徴です。ルールベース機械翻訳のように、言語ごとに異なる作業を行う必要はありません。そのため多言語翻訳に活用することも容易だと考えられており、対訳データさえあれば即戦力になる機械翻訳だといえるでしょう。
統計的機械翻訳に重要な「ビッグデータ」
前述したように、統計的機械翻訳においては大量の対訳データが欠かせません。そのため、近年普及しているビッグデータは機械翻訳にも大きな恩恵をもたらしたといえます。
よく耳にするビッグデータという言葉ですが、その定義を正しく理解している方はあまり多くないかもしれません。ビッグデータとは巨大なデータ群のことであり、様々な種類や形式のデータが含まれます。さらに、機械翻訳において必要な対訳データを含め、データは日々新しく生成されていきます。ビッグデータは、従来のデータベース管理システムでは管理することができなかったこれらのデータも記録・保管することで、データの有効利用を可能にします。
ビッグデータが普及したのは、コンピューターやインターネットが急速に発達したためです。さらに技術の発達により、大量の情報を低コストで分析することができるようになりました。その結果、現在では身近なところでも幅広くビッグデータが活用されています。具体的には、防犯カメラを利用した購入に至らなかった商品のデータ分析、Nシステムを利用した犯罪捜査や渋滞の予測、ドライバーへの警告などがあります。
そして、ビッグデータの発達により統計的機械翻訳の質も向上しました。統計的機械翻訳においては数10万~数100万程度のペアが学習のために必要だと考えられています。しかし、それ以上のデータを収集することができればさらに精度が上がることは言うまでもありません。多くのデータを収集するために、ビッグデータは非常に有用だといえるでしょう。
対訳データの収集方法は多岐にわたりますが、現在注目されている方法がクラウドソーシングです。クラウドソーシングを活用することで不特定多数の人の過去の対訳データを収集することができるため、コストを抑えつつ精度を上げることが可能になるといえるでしょう。
ビッグデータは量だけではなく質も重要
翻訳会社に限らず、AI学習のためのビッグデータを必要としている企業は少なくありません。そして、このような時代の流れからデータ提供を行う企業も登場しています。しかし、ここで注意したいことが「ビッグデータは量だけではなく質も重要」ということです。ビッグデータを活用する際には、量が必要なのはもちろんのこと、質を吟味することも必要だといえます。
機械翻訳なら十印にお任せください
統計的機械翻訳においては、ビッグデータが非常に重要な役割を果たします。質の良いビッグデータがあれば、それだけ質の高い機械翻訳が実現可能だといえるでしょう。しかし、現在では新しく登場したニューラル機械翻訳がより注目を浴びています。ニューラル機械翻訳によって機械翻訳の精度はさらに高くなり、実務で利用されることも多くなりました。
十印で提供しているAI翻訳ツール「T-tact N-ZIN」では、(国立研究開発法人)情報通信研究機構(NICT)によって作成された機械翻訳エンジンを使用しています。NICTでは総務省を中心に日本の企業から対訳データを集めているため、質のいいデータの収集に成功しています。量だけではなく質も高い翻訳データで作成されているため、その翻訳品質には一定の評価あります。
機械翻訳の導入をお考えの際は、ぜひご相談ください。
・十印の機械翻訳「T-tact AN-ZIN®」についてはこちら
・T-tact AN-ZIN®の14日間無料トライアルはこちら