約600年間未解読だった「ヴォイニッチ手稿」について、全域の翻訳(デコード)を完了し、論文とデータセットを公開しました。
前回の記事で、ヴォイニッチ手稿を「OI-2026プロトコル」という手法で全域翻訳した件について書きました。
今回の結論から言うと、この手稿は未知の言語で書かれたポエムなどではなく、中世の錬金術や初期医学における「実用薬物局方(物理的な操作手順書)」のレシピ本または実験記録でした。
本記事では、言語学的な「推測」を排除し、どのように情報工学のアプローチで翻訳を完遂したのか、論文の要点をまとめます。
🔗 論文・公開データセット・Pythonコード (Zenodo):
https://zenodo.org/records/20071552
1. 翻訳の結果(何が書かれていたか)
独自に開発したアルゴリズム「OI-2026プロトコル」を用いて解析した結果、手稿を構成する全9,783箇所の未知単語のうち、9,733語(99.4%)を構文的な矛盾なく実在のラテン語へと特定しました。
抽出されたテキストは、古典的な文法を持つ自然言語(散文)ではありませんでした。
代わりに現れたのは、「点火せよ(INCENDERE)」「アルカリ化せよ(ALCALISATUS)」といった操作指示のあとに、無数の材料名がリスト形式で続く、極めて規格化された「レシピ構造」です。
2. 翻訳のアプローチ(どうやって特定したか)
人間が恣意的に単語を当てはめる「こじつけ」を防ぐため、多次元ベクトル空間での客観的な照合を行っています。
-
次元同期 (TruncatedSVD):
手稿の未知記号(Stream A)と、16世紀のラテン語錬金術・医学コーパス(Stream B)の形態論的な振る舞いを、TruncatedSVDを用いて128次元のベクトル空間に圧縮・同期させました。(※初期はNMFを使用していましたが、負の相関を表現できない限界があったためSVDに移行しています) -
アンカーの抽出:
同期した空間内で、「相互最近傍(MNN)」かつ「Zスコア2.0以上の特異ギャップ」を持つペアのみを翻訳の起点(アンカー)として抽出。そこからマルコフ遷移(N-gramの引力)などを考慮し、連鎖的に単語を特定していきました。
3. 画像とテキストの相関(クロスモーダル証明)
この翻訳が正しいことを裏付けるため、テキストだけでなく「手稿の挿絵」を用いた証明も行いました。Gromov-Wasserstein最適輸送(GW)を用いた解析です。
手稿に描かれている植物の「枝葉の端点(Endpoints)の数」と、翻訳して出てきたテキスト内の「材料・成分」の出現頻度を比較しました。
結果として、両者に極めて強い正の相関(R = 0.7080)が確認されました。つまり、あの奇妙な植物の絵は単なる装飾ではなく、テキスト内で使用する「成分数」を指定する視覚的な仕様書だったということです。
4. 残された課題
現在のシステムでもラテン語彙と合致せず、「未定義」として残っている単語が50件(0.6%)あります。
これらは一般的な植物名ではなく、当時の著者が独自に名付けた「中間生成物」や「未知の化合物」である可能性が高いです。こればかりは、化学や実験史学の専門家による実際の「再現実験」を待つしかありません。
終わりに
公開しているZenodoのリポジトリには、翻訳結果の全マトリクスデータと、解析に使用したPythonコードを含めています。
データサイエンスやNLPに関心のある方は、ぜひデータセットをダウンロードしていただき、コードのレビューや検証を行っていただければと思います。客観的な議論を歓迎します。