昨日、TweenXCoreというライブラリを公開しました。そのドキュメントの英訳にGoogle翻訳を使ったのでその雑感をまとめます。
和訳については所感を書いてくれている方がいます。
新Google翻訳を使って3700ワードの技術文書を1時間で翻訳した
phpdbgのヘルプを和訳してみた
じゃあ英訳はどうなの?って話をここではしていきます。
前おき
とりあえず、自分の英語力について。8年前くらいに受けたTOEICが500点を下回るくらいだったと思います。それ以降、英語を頑張って勉強したとかは特にないので、当時から英語力はそれほど変わってないと思います。
技術系の英語は多少読めるけど、ライティングはさっぱりといった感じです。
なので、TweenXCoreも英語のドキュメントを作る気はなかったんですが、ちょうどリリース前にGoogle翻訳のアップデートがあったので、英訳をやりました。
翻訳の過程
ページ翻訳より https://translate.google.co.jp/ に直接日本語を入力したほうが良い訳を返してたので、そこに日本語で書いてあったドキュメントを入れて、その英語を読んで、間違ってそうな部分について原文や翻訳後の文章を書き換えていくという感じでした。
ページ翻訳はhtmlタグを含めた文章で翻訳してる分、難しいんじゃないかなと思います。
かかった時間はこの内容で5, 6時間程度(ちゃんと測ってない)という感じで、自力で訳すとこの3倍はかかりそうだし、もっと下手な英訳になりそうだと感じました。
あと、英→日訳より、日→英訳の方が品質がよさそうに見えました。
よかったところ
〇 うまく訳せていなくても原文の側を修正すると大体なおる
「、」がどこについているか、「。」がついているか、などのささいな変更でも翻訳結果が大きく変わります。
最初の翻訳が良くなくても、原文の側を少しずつ直していくと大体いいかんじの訳になってくれます。
〇 複数候補だしてくれる
翻訳後の文を選択すると別候補を表示してくれます。
〇 類義語の表示機能がついてる
各動詞などについてちょっとしたニュアンスの違いがきになることがあるんですが、それについては類似語の表示機能がついているのが良かったです。
〇 原文側の間違いに気づく
英文が正しくない!と思って原文見返してみたら、原文が重言してたりとか言い回しがおかしいというのが数回ありました。
〇 三単現のs忘れが無い
自分で英語を書くとよく間違えるのが、三単現のsと特殊な過去形とかのミスなんですが、その辺でミスをしてる例というのは見当たりませんでした。
よくあとで気づいて恥ずかしくなるので、このあたりはうれしいです。
〇 間違ってても、Google翻訳のせいにできる
わりと冗談ではなく。
英語を書きたくない理由は、間違った英語を書くのが恥ずかしいという心理的抵抗が大きいです。それに対して、英語が間違ってたとして「間違えたのはGoogle翻訳だから」っていう開き直りができるのは良いです。
〇 英語の勉強になる
ちょっと意外だったんですが、Google翻訳を使ってて英語の勉強になるなあと思ったことがいくつかあります。
英語の知らない言い回しが出てきたときに、そんな表現あるの?っていうのを調べてみるとだいたい間違ってない言い回しで、勉強になります。
自分がよく使う表現について、対応する英語の言い回しがわかるというのが良いです。
まだ不十分なところ
△ Weなのか、Iなのか、ぶれる。
当たり前なんですが日本語には書かれてないけど、英語に必要な情報は抜け落ちます。
日本語では主語をよく省くので、翻訳後の文に勝手に加えられたりするのですが、そこの記述がWe
なのかI
なのかぶれます。この辺は、Google翻訳の精度が上がってどうにかなる話ではなさそうですね。
複数形とか単数形とかも間違えます。ただ、正しいことのほうが多い、くらいの精度はあります。
技術分野であれば、He
とShe
っていうやっかいな問題はないのでいくぶんかまし、っていう感じです。
△ 日本人の英語になる
おそらく、日本人には読みやすい英語になっているんだろうなと思ったんですが、ネイティブの人にとって読みやすいのか疑問が残ります。
どういうことかというと、カタカナ語や、日本語っぽい言い回しをそのまま訳している節があります。
ドキュメントに出てきたものではないですが、例を一つ上げます。
原文: クレームを入れた。
英訳結果: I put in a claim.
"put in a claim" は、どちらかというと「(賠償、賃金、所有権)を要求する」という意味らしくて原文と意味がずれてしまいます。ですが、自分くらいの英語力だとこれをみて、「おっ、正しく訳せてる」と思いがちです。
ちなみに、これを日本語に再翻訳すると「私はクレームを入れました。」と元の日本語に戻ってしまいます。
自力で訳すよりはまし
同じようなことは自力で翻訳した場合でも起きることなので、あまり目くじらを立てるようなものではないかなと思います。
△ マイナーな単語について語感が近いものに間違える
実際にあった誤訳を挙げます。
トゥイーン → twit(なじる)、tweeding(スコットランド式の手織り?)
5次関数 → quadratic function(2次関数)
必ず間違えるわけではなくて、特定の文章でだけ間違えるといった感じです。読んでてうっかり見逃しそうな間違いなのでちょっと怖かったです。
単純に学習に使ったサンプル数が足りてないんだろうなと思います。今後のGoogle翻訳の更新で改善されていきそうです。
より快適にGoogle翻訳を使うために
今回の翻訳で感じたことは、そもそもの原文を翻訳しやすくすれば翻訳時にかかる手間が減るのではないか、ということです。
どうすれば翻訳が間違われにくい日本語になるのかをまとめました。
和製英語を避ける
和製英語を使うと、和製英語のままになっていることがあります。(大丈夫なこともある)
CUI(キャラクタユーザーインタフェース)をCLIに直してくれるとかはまず無いので、なにが和製英語か知っておくのは結構重要です。
長い文をさける
文が長くなるとそれだけ文の切り方を間違えることが多くなります。
間違ってなくても長い英文が返ってくるので、自分でその英文を読むのがつらいです。
ドキュメントの英語は、簡単な英語が理想ですから、簡単な英語に訳せる日本語を書いていきたいです。
「、」と「。」の使い方に気をつける
「、」の使い方が少しおかしいと翻訳を大きく間違えるということがあります。
例です。
原文: 文章が長くなると、それだけ文の切り方を、間違えることが多くなります。
翻訳: As sentences become longer, the more you make mistakes, the more you cut the sentences.
(文章が長くなるほどに、間違いが増え、文章を切るようになります)
「を、」の「、」が余計なので、消して翻訳してみます。
翻訳: As sentences become longer, it is more likely to make mistakes as to how to cut sentences accordingly.
良くなりました。
また、文章の最後に「。」を付け無いと翻訳の精度が下がるように見えます。
重言をさける
例です。
原文: 必ずしも知っている必要は無いです。
翻訳: It is not necessary to necessarily know.
重言すると、翻訳後も重言することがあります。(しないこともある)
慣用句を避ける
例です。
原文: 腕が落ちたなあ。
翻訳: I felt my arms fell.
原文: 顔を売っとくといいよ。
翻訳: You should sell your face.
原文: そんな可能性、毛頭ありません。
翻訳: Such possibility, there is no hair.
直訳されることが多いです。(されないこともある)
全体的に
- 正しい日本語にする。
- 平易な日本語にする。
- 悪意をもって解釈しても、別の意味にとれないようにする。
というのを心掛けると、だいぶ精度があがるように見えます。
雑感
現状について
雑な感想としては、「自分より英語のできる友人に英訳を頼んだ」くらいの精度を感じました。
日本人っぽい間違いもするし、書いてないことは伝わらないし、原文が間違ってれば訳も間違える。
一方で、複数の候補を出してくれるし、類義語もリストアップしてくれるくらい気が利く。そして仕事が速い。
翻訳してくれた内容にはレビューが必要だけど間違いを見つけたら直してくれる。フィードバックしてくと、さらに翻訳力がついていく(たぶん)。
というふうに考えると、すごくよくやってくれてるなあと思えます。
Google翻訳によって起きたこと
英語の正誤が分かれば翻訳ができる
Google翻訳によって、英語の何を学ぶべきかの重要度が変わったように思います。
かつて、IMEによって漢字の正誤がわかれば漢字が使えるようになりました。「漢字の正誤が分かる」というのは、「漢字を読める」よりも難しく、「漢字を書ける」よりも簡単です。
そして今度は自動翻訳によって英語の正誤が分かれば、英語を使えるようになりました。これによって「英語の書ける」ことの重要さに対して「英語の正誤が分かる」重要さが増したということになるでしょう。
実際に英語圏のユーザーにリーチできてる
https://groups.google.com/forum/#!topic/haxelang/kwJOci-uj_0
HaxeのGoogleグループにライブラリのリリースをポストしましたが、良い反応がもらえています。うれしい限りです。
TOEICの500点というと日本のTOEIC受験者の平均的なスコアらしいですが、つまり、そのくらいの英語力で英語圏に対して簡単に影響力を持てるようになったということのようです。
そういった意味で新Google翻訳は本当に革新的だと思います。
これからについて
人間が翻訳に合わせていくということ
翻訳の敷居が下がって誰でも翻訳ができる時代が来たということは、当然、翻訳という行動がもっと一般的にされるようになるだと思います。
それによって世の中がどう変わっていくのか想像するのはちょっと楽しいですね。
途中で取り上げたように、英語に翻訳される前提で日本語を書くというのは普通に行われるようになると思います。
Qiitaに記事を書くのも、日本語と英語の2カ国語で書くというのが普通にされるようになっていくかもしれません。
英日訳がよくされるようになれば日本人は英語から翻訳された日本語を読むのが今より上手になるでしょうし、日英訳がよくされるようになれば英語圏の人は日本語から翻訳された英語を読むのが今よりうまくなるかもしれません。
自動翻訳が変わったことで、むしろ人間の側が変わっていくこというのはたくさんあるんだろうなと思います。
音声認識からの自動翻訳も良くなったら、海外カンファレンスに行ってみたいなーとも思います。そういう壁がなくなっていく感じはとてもわくわくします。
翻訳ソフトの落としどころ
Google翻訳を使ってみて、単なる日本語を英語に翻訳することそのものの限界というのは感じました。今後の翻訳ソフトは統合翻訳環境みたいな感じで進化していくんじゃないかと思います。
とりあえず日本語と英語のドキュメントをワンソースで管理したいので、日本語のドキュメントに翻訳用のタグ付けや主語の注釈付けしておいて英文を生成できるような統一フォーマットがほしいなと思いました。
[カテゴリ:プログラミング, 雰囲気:堅め]
本日、新しいライブラリをリリースしました[主語:わたしたち]。
みたいな感じで。あと足りない情報があったときに、警告表示とか出てきたら最高です。