機械翻訳に必要な「対訳コーパス」とは?
現在は世界中でグローバル化が急速に進行しており、翻訳の機会も増加しています。それに伴い、翻訳業務の効率化やコスト削減を目的に機械翻訳を導入する企業も増えてきました。今後もこの流れは続いていくといえるでしょう。
そして、機械翻訳の質を上げるために重要な役割を果たすものの1つが「対訳コーパス」です。ここでは、対訳コーパスの概要や種類、具体例、入手方法などについてまとめました。
対訳コーパスとは
対訳コーパスとは、多言語間の翻訳文を構造化したもののことを指します。文と文が対訳の形でまとめられており、機械翻訳の学習データとして用いられています。多くのデータを蓄積することによって、機械翻訳アルゴリズムによる品質の高い翻訳を実現することが可能になります。
対訳コーパスの種類
対訳コーパスは、原文と他の1つの言語の翻訳から構成される「2言語パラレルコーパス」、原文と他の複数言語の翻訳から構成される「多言語パラレルコーパス」、原文と他の1つの言語にける複数の翻訳から構成される「2言語多翻訳コーパス」、同じジャンルにおいてある言語のテキストと他の言語のテキストを収録した「2言語比較可能コーパス」の4つに大別されます。
これら4つのうち、最も一般的な対訳コーパスが2言語パラレルコーパスです。多言語パラレルコーパスは、多言語に翻訳された文書・小説などに限って構築することができます。2言語多翻訳コーパスは同一言語においても複数の翻訳者に訳された文書・小説などにおいてのみ構築可能なため、かなり限定的だといえます。
そして、2言語比較可能コーパスは現在注目されている対訳コーパスだといえます。処理が少ない分、比較的短時間で構築することができます。
対訳コーパスが機械翻訳において重要な理由
異なる言語において、単語と単語、文章と文章は一対一で対応しているわけではありません。1つの単語や文章に対して、多くの訳が考えられます。そして、どの訳が最も適切かは文脈などによって判断しなければいけません。
しかし、ストックされているデータが少ない場合にはどうしても不自然な翻訳になることが多くなってしまいます。また、場合によっては誤訳となることもあります。機械翻訳の正確性を上げるためには、大量のデータを学習させる必要があるといえるでしょう。
そのため、多くのデータが含まれている対訳コーパスは良質な機械翻訳を実現するために欠かせません。機械翻訳の質向上のため、多くの翻訳者が情報を提供して対訳コーパスの構築に貢献しています。
対訳コーパスの例
対訳コーパスの例としては、以下のようなものが挙げられます。
日本語 | 魚がたくさん取れた。 |
英語 | Many fish were caught. |
日本語 | 勉強している間はラジオを切っておきなさい。 |
英語 | While studying, turn off the radio. |
これらは、日本語と英語のみ、1つの対訳のみで構成された2言語パラレルコーパスの例です。多言語パラレルコーパスであれば、日本語と英語以外の言語も併せてデータ化されます。また、日本語の原文に対して複数の英訳が収録されている場合は2言語多翻訳コーパスとなります。
対訳コーパスには、ここで挙げたような例が大量にストックされています。とはいえ、ストックが十分ということはなく、また言語は時代によって変化します。そのため、多くの企業では継続的に対訳コーパスの増強に取り組んでいます。
対訳コーパスの入手方法
対訳コーパスの入手は、機械翻訳の学習のために欠かせません。ここでは、インターネット上で提供されている対訳コーパスをまとめました。
【日本語対訳データ】 |
---|
日本語を対象とする言語資源のリストで、日英翻訳の資源を主に取り上げています。 URL: http://phontron.com/japanese-translation-data.php?lang=ja |
【第36回カナダ議会議事録対訳集】 |
---|
英語とフランス語の対訳コーパスです。 URL: https://www.isi.edu/natural-language/download/hansard/ |
【欧州議会議事録対訳コーパス1996~2011】 |
---|
ヨーロッパの21カ国語の対訳コーパスです。 URL: http://www.statmt.org/europarl/ |
【グローバル・ボイス対訳コーパス】 |
---|
ニュースポータルサイトであるグローバル・ボイスの記事です。 URL: http://casmacat.eu/corpus/global-voices.html |
【国連翻訳テキスト】 |
---|
6カ国語での国連の翻訳文書です。 URL: http://opus.nlpl.eu/UN.php |
【英語・ベトナム語テキスト】 |
---|
英語とベトナム語の対訳コーパスです。 URL: http://catalog.elra.info/en-us/repository/browse/ELRA-W0124/ |
【英語・ペルシャ語テキスト】 |
---|
英語とペルシャ語の対訳コーパスです。 URL: http://catalog.elra.info/en-us/repository/browse/ELRA-W0118/ |
【ドイツ語・英語テキスト】 |
---|
手動翻訳によるドイツ語と英語の対訳コーパスです。 URL: https://github.com/bicici/SMTData/blob/master/German-English_WordAlignment.zip |
【トルコ語・英語テキスト】 |
---|
WMT2018のためのトルコ語と英語の対訳コーパスです。 URL: https://github.com/bicici/SMTData/commit/1cca572244c6c9b8e810735ca898f5f3a19b2ecc#diff-7a11a746e07c7411854b77f3f521f534 |
質の高い機械翻訳なら十印にお任せください
ここでご紹介したように、機械翻訳の精度を上げるためには対訳コーパスが不可欠です。蓄積されたデータが多ければ多いほど、精度の高い翻訳になるといえるでしょう。
十印でご提供している機械翻訳ツールは、総務省が中心になり、国内の大企業からコーパスを収集する「翻訳バンク」を用いて学習しているため、日本語を中心として非常に高い精度の訳出が得られます。無料トライアルを行っていますので、まずは一度お試しください。
・十印の機械翻訳「T-tact AN-ZIN®」についてはこちら
・T-tact AN-ZIN®の14日間無料トライアルはこちら
・AI翻訳運用のコツをまとめた資料「自動翻訳の翻訳精度を向上させるヒント」を無料ダウンロードいただけます。是非AI翻訳導入の際のヒントとしてください。
※同業者のダウンロードはお控えいただきますようお願いいたします。