‘Intel® Community‘などのコミュニティー・サイトでは機械翻訳機能を提供して、言葉の障壁を低くする取り組みがされています。数ある言語の中でも難しいとされている日本語の機械翻訳をより正確にするためのコツを共有したいと思います。
#なぜ日本語の機械翻訳は難しい
検索をすると、日本語から英語への翻訳が難しい理由は数多く出てきます。必ずしも主語が必要ない、単語の間にスペースがない、語順の自由度が高い、文字通りに翻訳することのできない単語やフレーズが多くある、などが主な理由のようです。
残念ながらこのような日本語の特徴は今更どうすることもできません。そこで機械翻訳の実装をしているスペシャリストに、いかに機械翻訳エンジンに日本語文章を正確に翻訳してもらうか、を教えてもらいました。
#コツ1 – 機械翻訳エンジンを混乱させない日本語文章を書く
誤字、句読点の欠如、または単語(特に主語)の欠落など英文法と比較して情報が不正確だったり不十分であったりすると、機械翻訳エンジンは混乱して翻訳の正確性に大きな影響を与えます。これは、通常では機械翻訳エンジンが適切に記述されたソース文とターゲット文でトレーニングされているからです。人間が何回か読んでやっと理解できるような日本語文章は、機械翻訳がうまくいかない可能性を高めます。
#コツ2 – 文の長さを長すぎず短すぎずに保つ
長くて複雑な文章、例えば20から25文節以上からなる文章は、機械翻訳エンジンの仕事を難しくします。
逆に短すぎる文も適切ではありません。理由の一つ目は、短すぎる文では主語などが省略されていることが多いから。理由の2つ目は、機械翻訳エンジンがキャプチャできる文脈がないためです。
主語があることを確認し、文節を20未満にしてみましょう。試しにいくつかの文章の文節を数えてみると、どの程度の文字数がどの程度の文節の数に相当するのかというおおよその目処をつけることができるようになります。文節は「言葉を細かく区切った際に不自然でない最小単位」ですので、この直前の文章の文節は以下のようになり、1分節は3.2文字平均でした。区切りに「ね」を入れて自然であればその区切りは文節です。
主語が(ね)/ある(ね)/ことを(ね)/確認し(ね)、/文節の(ね)/長さを(ね)/15語程度に(ね)/して(ね)/みましょう(ね)。
ほとんどの文章作成ソフトウェアは日本語の文節数を数える機能を持っていません。ですが文字数を数えることは多くの文章作成ソフトウェアではできるので、文字数からおおまかな文節数を推定できます。
#コツ3 – 文脈をくみ取らなくても理解できる言葉を選ぶ
単語によっては、文脈をくみ取らないと正しく翻訳できないものがあり、このような単語を含む文章は機械翻訳エンジンにとっては非常にデリケートな文章となります。専門用語集によってトレーニングされていない機械翻訳エンジンは、文脈を掴むことができない場合、最も一般的な語を翻訳結果として使用します。
例えば、単純に「チップ」と書いた場合、それは「ポテトチップ」であったり、「半導体チップ」であったり、または「カジノのチップ」の可能性もあります。機械翻訳エンジンに文脈を推測させてしまう「チップ」を使用するのではなく、機械翻訳エンジンが推測なしで理解できる「半導体チップ」のような単語を選択しましょう。
#コツ4 – あれ、これ、それ、では伝わらないので使わない
人間同士、特に親密な関係の人同士では、「あれ取って」、「これを直しておいて」、「それは壊れているよ」で話は通じるでしょう。しかし、「あれ」、「これ」、「それ」のような語は機械翻訳エンジンにとってはとても挑戦的です。良い翻訳結果を得るためには、「これ」が何であるかを明確にしましょう。「あれ」に似たような語をもっと知りたい方は、「指示語」を調べてください。
#コツ5 – 文章の適切な分割を意識する
コツ1の中で、句読点の欠落をひとつの問題として紹介しましたが、句読点を含む「セグメンテーション(分割)」を意識して文章を区切ることが重要です。ほとんどの機械翻訳エンジンは、一般的な区切り文字(句点、読点、ピリオド、改行)を利用して、文章を管理しやすい塊に分割するという事前処理をします。
反対に、一行の文字数を揃えるために、本来は不要な改行を文章の途中に入れたりすると、翻訳を奇妙にすることになります。
#さいごに
いかがでしたでしょうか。機械翻訳エンジンはこれからも精度を上げていくでしょうが、今の段階では人間が機械翻訳に適した文章を書くという工程が必要です。今回紹介したコツを適用して機械翻訳を有効活用することで、英語のサポート体制しかない製品は使わないといった残念な事例を解消したり、皆さんが注力したいところに時間をかけられるようになればと思います。
#Notices & Disclaimers
Intel technologies may require enabled hardware, software, or service activation.
No product or component can be absolutely secure.
Your costs and results may vary.
© Intel Corporation. Intel, the Intel logo, and other Intel marks are trademarks of Intel Corporation or its subsidiaries. Other names and brands may be claimed as the property of others.