IBMの書庫を見ていたら701 Translatorという文書を発見しました。

1954年に人類史上初の機械翻訳デモンストレーション、IBM-Georgetown demonstrationが行われたのですが、IBM 701はその実験に使われたコンピュータで、そして701 Translatorはまさにそのプレスリリースのようです。
60年以上前の海外のテキストが普通に読めるとは、よい時代になったものです。
そしてそんな貴重なテキストが和訳されてないことにびっくりだ。

IBM Press release, January 8, 1954

1月7日、ニューヨーク。
今日初めて、電子的な「脳」によってロシア語が英語に翻訳されました。

ジョージタウン大学の言語学者によって、ロシア語で書かれた「Brief statements about politics, law, mathematics, chemistry, metallurgy, communications and military affairs」という文書がIBM 701コンピュータに入力されました。
そして、コンピュータはその文章をわずか数秒で平易な英語に変えました。

ロシア語を解さない少女の手により、ロシア語のメッセージがIBMのマシンに打ち込まれました。
「脳」は自動的にそのメッセージを英語に翻訳し、毎秒2.5ラインという超高速でプリントアウトしました。

少女は「Mi pyeryedayem mislyi posryedstvom ryechyi,」と入力し、そして701は答えました。
「We transmit thoughts by means of speech.」

「Vyelyichyina ugla opryedyelyayetsya otnoshyenyiyem dlyini dugi k radyiusu,」
パンチカードが音を立てます。
「Magnitude of angle is determined by the relation of length of arc to radius.」

引き続きロシア語の文章が60以上「脳」に与えられました。
研究段階の技術ですが、ジョージタウン大学とIBMが行ったデモンストレーションにおいて、全てはスムーズに翻訳されていました。

ある言語を機械的に他の言語に翻訳するために、一部の研究者は数十年にわたって様々な機関で個別に研究を続けてきました。
しかし、ジョージタウン大学が1年半前にIBM 701という高性能な「脳」を手に入れるまで、成果は全く得られませんでした。

実験は16時間にわたって続けられたあと、IBM 701は原子物理学、ロケット起動、数学的問題など他の計算案件に回されていきました。
これらの計算結果は、コンピュータに全く新しい、そして不思議な分野を切り開きました。
人間の行動の研究、具体的には人間の言葉を使用することです。
結果は、今日公然と示されたように、大いなる成功でした。

「この実験が持つ、防衛や平和などの国益への価値は明らかだ」
IBM本部でこのデモンストレーションを目撃した科学者たちと政府関係者たちに、機械翻訳への実用的アプローチを生み出したジョージタウン大学の言語学者Leon Dostert教授は宣言しました。

「この実験の担当者たちは、電子的に言語を変換することが可能になることは確実だ、と考えています。」

「ロシア語の本を入口に突っ込むと、出口から英語の本が出てくる」ほどの性能はまだ無いけれども、5年後、ひょっとしたら3年後には、一部の重要な分野において電子的翻訳は既に確立された技術になっているかもしれない、とLeon Dostert教授は推測しています。

「異文化間コミュニケーションへのもうひとつの大きな障害は取り除かれることでしょう。」彼は指摘しています。
「人間が同時代、そして後世に物事を伝えるために行ってきたことは、言語の文書化です。
マルチリンガルは、ある意味でこの目的を邪魔してきたといえます。
電子翻訳は、あらゆる人々に隣人へのアプローチ手段を与えるための、人間の努力の結晶です。」

「具体的には、電子翻訳が可能になれば、西洋に存在する多くの書籍や科学文献を、世界の発展していない地域の言語に翻訳することが可能になります。
様々な言語で書かれている科学文献を、容易に迅速に自分たちの言語にできるようになることも、もうひとつの実用的な目標です。」

本日のデモンストレーションは、ロシア語以外の言語で行われていた可能性もあります。
ロシア語は、ジョージタウン大学の言語学者によって選ばれました。
内容を英語に変換しなければその価値がわからないロシア語の資料の数が着実に増えているのに対して、ロシア語を解する人間が不足しているためです。
ロシアに関する膨大な資料は、スパイからもたらされたものではありません。
ロシア国内、もしくは利害関係者に公開された、書籍・雑誌・新聞・技術資料などで構成されています。

電子翻訳に関心を持つ科学者は、戦争的な意図を持っているわけではありません。
彼らの目的はコミュニケーションの改善です。
科学技術資料が最初に選ばれたのは、そのテキストは特殊な意味を持つ言葉が多く、ある言葉が特定の文脈で現れたならば、その言葉が特定の意味を持つ可能性が高いと予測されるからです。

医学や工学など他の技術分野でも、同じように考えられます。
従って、Dostert教授は、電子翻訳は技術分野毎に別々の辞書から始まり、それらに知識の蓄積が増えるにつれて、我々の日常使っている非論理的で予測不可能な言葉も徐々に正確に翻訳されていくことになるだろうと考えています。
非論理的で予測不可能な言葉とは、たとえば"charleyhorse"です。

"Charley"はCharlesのニックネームです。
"Horse"は四足獣の一種です。
しかし"charleyhorse"はチャーリーという名前の馬を意味するわけではありません。
それはcalfの筋肉が痙攣すること、を意味します。
さらに今使ったcalfは、この文脈では子牛という意味ではありません。

電子翻訳者が実際に行ったことは、全く新しい電子言語を作成することです。
彼らは単語ひとつひとつにタグやサインを付け加え、単語が通常持っている以上の精度を各単語に持たせました。
そのサインは文法や意味として翻訳のルールに使われます。
今日のデモでは6個のタグルールしか使われませんでしたが、その6個は、今日IBM 701が翻訳を依頼された全ての文章をカバーするのに十分な量でした。

IBMの「脳」は、これらのタグルールが単語に紐付けられている場合にだけ翻訳できます。
「脳」は、独自に考えるようなことはできません。
人間が事前に準備した詳細な指示に従ったタスクを実行することしかできません。
ジョージタウン大学の言語学者は、複数の意味を持っている単語から、どのようにしてより正しい訳を選ばせるかという良い方法を考えつくまで、「脳」にうまく指示を与えることができませんでした。

6個のタグルールこそが解決の鍵でした。
ジョージタウン大学の言語学者が調査した多くのルールの中で、その6個が機械翻訳に大きな影響を与えていることがわかったため特別に選ばれました。
Dostert博士は、一般的な科学技術資料を翻訳するためには100以上ものルールタグが必要になるだろうと推測しています。
しかし、その数がどれだけ多くなっても、基本中の基本は現在の6個のままです。

その6個のルールは、意味が成り立つように単語の位置を入れ替え、単語が複数の意味を持つときに何を選ぶかの選択、翻訳に不要な単語の省略、逆に省略されている単語の追加、といったようなものです。

ここでは6個のルールのうちのひとつ、単語位置の転置について解説してみます。

まずロシア語の"gyeneral mayor"を考えてみます。
これを正しい英語にするためには、位置を入れ替えて"major general"にしなければなりません。

この機械は、ロシア語の"gyeneral"には機械に入っている翻訳辞書を調べてルールサイン21をタグ付けし、同様に"mayor"にはルールサイン110をタグ付けます。

翻訳辞書には「ルールサイン110が存在すれば戻ってルールサイン21を探す。見つかればその単語の位置を入れ替える」という命令が含まれています。

「脳」は翻訳辞書を見て順番に翻訳を行っていき、ルールサイン110を見付けたら前に戻ってルールサイン21を発見し、命令に従って自動的に行動します。
この処理を瞬く間に行っていきます。

試しにもうひとつ、今度は単語の意味選択法則の例を挙げ、ロシア語の複数の意味から正しい訳を選択する方法を見てみましょう。

ロシア語で"nauka"は英語で"science"を意味します。
ロシア語の"o"は、"about"もしくは"of"のいずれかを表します。
"nauka o"の適切な翻訳は"science about"ではなく"science of"です。
しかし「脳」はどうやってそちらが正しいと判断できるのでしょうか。

翻訳辞書を見てみると、"nauka"はルールサイン242を持ち、"o"はルールサイン141を持っています。
そして辞書には以下のような命令が入っています。
「ルールサイン141が存在すれば戻ってルールサイン241か242を探す。241が現れたら英単語のひとつめの意味を選択する。242が現れたら英単語のふたつめの意味を選択する。」
結果、コンピュータは"o"を見付けたときにルールサイン141を読み取り、後ろに戻って"nauka"からルールサイン242を見付け、"o"の2番目の意味を選択し、正しく"science of"を出力します。

6個のルールが機械翻訳のベースとして決定された後、言語学者は自らそれを試してみました。
彼らはまずロシア語で文章を書きました。
その後、ロシア語-英語の翻訳辞書に追加して、どのように翻訳すれば適切な英語に翻訳できるかというルールセットを記入しました。

次に、彼らはロシア語も機械翻訳のことも全く知らないワシントンの政府関係者などに、ロシア語の文章とルールセットを渡しました。
彼らはルールセットに従ってロシア語を訳し、いいかんじの翻訳ができあがりました。

人間が行ったこの実験と同じことをIBMの魔法のコンピュータに行わせるための第一歩は、磁気ドラムに250語のロシア語と、それに相当する英語を登録していくことでした。
ロシア語の単語に複数の意味がある場合は、それぞれの意味にルールサインが設定されました。
この一連の作業は、「脳」が理解できる翻訳辞書として登録されました。

翻訳準備の次のステップは、詳細な指示です。
ワシントンの人々が行ったのと全く同じルールセットを、今度はIBM 701の電子メモリ上に用意したのです。

全てが終わった後は、コンピュータに翻訳したいロシア語を伝えるだけでした。
「脳」は、6、7秒ごとにひとつの正しい文章を出力しました。

この実験デモは、ただの科学実験にすぎないと見做してもいいし、Dostert博士が言ったように「機械翻訳のキティホークだ」と評価されてもいいです。
いずれにせよ、プロジェクトの成功は、言語学とエレクトロニクスの両方に多大な影響があることでしょう。

言語学の学生は機械的な観点からも言語を研究するための大きな理由ができました。
彼らには言語がどのように機能するかを調べるべき、現実的な理由があります。

電子的な「脳」の観点から見ても、機械翻訳には大きな意味があります。
たとえば、単語の意味選択法則のロジックは、小さなものであっても、誘導ミサイルの飛翔制御に必要なコンピュータの2.5倍の性能が必要になることがわかりました。

ロシア語の翻訳を行うためにIBM 701が行ったことは、数学ではなく論理演算を行うように特別に設計された「脳」のモデルを作成することでした。
この「脳」は栄冠に浴し、今後のさらなる発展を期待されています。

感想

英文なうえでさらに古文ともなると、意味のわからないところだらけだったので、いつも以上に戸田奈津子訳です。
きっとそのうちもっとよい和訳がプルリクされるはず。

IBM 701はIBM初の、そして全世界で見ても数機種目の商用コンピュータです。
性能は加減算を秒間16000回、すなわち0.016MFLOPSと現代から見ればゴミみたいなものですが、そもそも商用コンピュータ自体が世界に数十台程度しか存在しないという時代です。
当時としては画期的な高性能で、当時のレートで月数万ドルという高額でリースされていました。

IBM 701の翻訳はRule-based machine translationという技術を使っていますが、この翻訳方式はとにかく莫大なルールを必要とします。
6どころか100でも全然足りません。
実のところ、この実験ではいいかんじな精度に翻訳できるような原文が予め用意されており、現実的には全く使い物にならないレベルの翻訳しかできなかったとされています。
ルールベース機械翻訳はその後数十年間停滞し、コンピュータの性能が飛躍的に進化した1980年代以降にようやくStatistical Machine TranslationNeural Machine Translationといった新技術が登場してきます。
当時の翻訳技術と現代のそれとは、もはや完全に別物になっています。

なってはいるのですが、実際のところ、精度としてはさほど変わっているようには思えないですね。
実際この701 Translator文書をGoogle翻訳やBing翻訳にかけても、非常に意味のわからない日本語しか出てきません。
英語文書をネイティブ日本語レベルに翻訳できる技術ができあがる日はいつのことでしょうか。
いやむしろ翻訳こんにゃくの実用化はいつの日なのか。

Sign up for free and join this conversation.
Sign Up
If you already have a Qiita account log in.