2019.10.07

AI翻訳の質を向上させる「コーパス」について徹底解説!

「コーパス」という言葉をご存知でしょうか。近年注目されているAI翻訳サービスに関する説明でも、コーパスという言葉が出てくることがあります。

しかし、実際にはどのようなものか、明確にご存知の方は意外に少ないかもしれません。今回は、AI翻訳に重要な役割を果たすコーパスについて、その種類、役割、どのように利用すると効果的かを分かりやすく解説していきます。

コーパスとは?

日本でコーパスを一般に広く知らしたのは、英語学者の投野由紀夫さんであると言われています。2003年、投野さんが講師を務めるNHKテレビ『100語でスタート!英会話』のなかで英語コーパスが使用されたことで、それまで専門家しか知らなかったコーパスについて一般の人も知るきっかけにとなりました。

それでは、コーパスについて詳しく解説していきます。

コーパスとは、本、雑誌、映画、テレビなどのさまざまなメディアで使われている文字化された話し言葉を大量に集め、コンピュータで検索できるようにしたデータベースのことです。自然言語処理の研究に利用するために、自然言語を構造化して大量に蓄積し、品詞などの言語的な情報も付与されています。言語学において人間が日常的に使っている自然言語を、コンピュータに処理させる技術を自然言語処理と言います。元々は、「身体」を意味するラテン語「corpus」に由来します。

コーパスを利用することで、ネイティブの英語に近づけるという長所があります。コーパスで語句を検索してみると、実際の使用例、掲載されているメディア、ヒット数などが表示されます。
また、単語の使用頻度や、微妙な意味の違いも分かりやすくなることで自然な表現を理解しやすくなるでしょう。

主なコーパスの種類

コーパスには無料、有料などさまざまなものがあります。主なコーパスの種類として、日本語コーパス、英語コーパス、学習者コーパス、対訳コーパス、検索エンジンコーパスがあります。

今回は無料で誰でもアクセスできる5種類のコーパスを、特徴をあげながら紹介します。

・日本語コーパス
日本語コーパスとして、国立国語研究所が中心になって構築した大規模コーパスのKOTONOHA Corpusがあります。ここには現代日本語の書き言葉が把握できるように約1億語が収録されています。

・英語コーパス
BNC Simple Searchは、よく知られている英語コーパスで約1億語のイギリス英語が収録されています。Simple SearchはBNC(British National Corpus)のサイトにありアクセスも簡単です。
ただし1回の検索結果は50例までです。

・学習者コーパス
JEFLL学習者コーパスはJapanese English as a Foreign Language Learnersの略で、日本人の英語学習者である中学生と高校生の作文データをコーパス化したものです。

・検索エンジンコーパス
検索エンジンに英文を入れることでもコーパスの役割を果たす場合があります。この場合、検索したい英語を””で囲んで検索欄に入力してから検索します。

コーパスの役割は「ネイティブが自然な英語表現を知る」こと

コーパスの役割は自然な英語表現を知ることです。前述したように、コーパスを活用することでネイティブが自然だと感じる英語に近づけることができるというメリットがあります。

コーパスのメリットをいくつか説明していきます。

単語の使用頻度
コーパスを利用すると、単語の使用頻度が数字で表示されます。nice、cool、neatなど、同じような意味を持つ複数の表現をコーパスで検索してみると、使用頻度が高い表現が分かります。
ネイティブがよく使う単語や表現が「自然な英語表現」であると言えます。

正しい言い回し
「この英語は本当に正しい言い回しだろうか」と迷ったことはありませんか。ネイティブスピーカーに尋ねることができる環境であれば別ですが、そうでない場合はコーパスを利用することで実際の英文による正しい言い回しが確認できて便利です。

言葉の使い分け
英語を母国語とする人が自然だと感じる英文を書くには、単語の微妙なニュアンスの違いを踏まえて適切に言葉を使い分ける必要があります。コーパスを使うことで自然な英文を参照できます。

AI翻訳におけるコーパスのあり方

コーパスはAI翻訳でも活用されています。実際にAI翻訳でコーパスを利用するとき、どのくらいの分量があれば質を担保できるのでしょうか。

AI翻訳における適切なコーパスの分量
一般的に機械翻訳に読み込ませるコーパスが多いほど、翻訳の質は上がると言われています。あくまでも目安ですが、20万~100万ワードのコーパスが必要とされています。

コーパスは専門性の高さが重要
コーパスの専門性が十分に高いと、一般に言われている必要分量よりも少なくて済む場合があります。

読み込ませるコーパスが翻訳対象の文書と関連性が高ければ、使用されている表現や用語が似ている部分が多くなります。このような場合、前述のように20万ワードに至らないコーパスでも品質は保てるという意見もあります。

ある製品の取扱説明書を英日翻訳する際に、800万ワードを読み込ませたコーパスと、その製品に特化した40万ワードを読み込ませたコーパスを使用したところ、品質に差が出なかったという事例が報告されているようです。

このように語数だけ多くても専門性が異なっていたら、効果が発揮されない場合もあります。コーパスは専門性が鍵になると心得ておきましょう。

***

コーパスを上手く活用することで、ネイティブに近い表現が可能になります。

翻訳された単語の意味自体は間違っていない場合でも、微妙なニュアンスの違いにより上手く訳文が伝わらないことも考えられますので、コーパスを利用し、伝えたいことにもっとも近い表現を探してみましょう。

コーパスの使用について関心をお持ちの方は、ぜひ一度株式会社十印へご相談ください。

十印のAI翻訳サービスについてはこちら

backtotop