はじめに——反転の宣言
以前に書いた記事では、LLMのトークンがソシュールの記号論を体現していることを示した。トークンIDは完全に恣意的な整数であり、「犬」に割り当てられた数字と「猫」に割り当てられた数字の間には、意味的な関係が何もない。記号の恣意性——これがLLMのハードウェアレベルの事実だった。
今回はその視点を裏返す。
記号とはすなわちトークンである。そしてトークンは、言語の専売特許ではない。
トークンという概念を言語の外に持ち出したとき、三つの異なる現象が同じ構造を持っていることに気づく。LLMの整数ID、バズワード、そして「海の民」と呼ばれる古代の集団——これらはすべて「名前と実体の接続が切れたトークン」である。しかし切断の方向と原因はそれぞれまったく異なる。
その差異を見ることで、「なぜ名前は実体を捕まえられないのか」という問いへの答えが見えてくる。
歴史のトークン——海の民
紀元前12世紀、青銅器時代の終わりに地中海東岸を席巻した集団がいる。エジプトの碑文は彼らを「海の民」と記録した。ラムセス3世の治世の記録には、彼らが各地の文明を滅ぼし、エジプトへ侵攻したことが刻まれている。
ヒッタイト帝国の崩壊との関連も指摘されている。ミケーネ文明の消滅との関わりも論じられている。しかしそれらの主張のどれが正確かは今なお定まっていない。「海の民」が単一の民族集団だったのか、複数の集団の連合だったのかすら、考古学的証拠は確定的な答えを与えてくれない。
問題の核心はここにある。彼らは自分たちを何と名乗っていたのか、誰も知らない。
「海の民」という名前はエジプト人が貼ったラベルだ。侵攻を受けた側の記録しか残っていない、彼ら自身の言語で書かれた文書は発見されていない。実体——存在した、動いた、破壊した、あるいは定住した人々——は確かにそこにあった。しかし実体から名前への矢印が、歴史の断絶によって失われた。
これが歴史のトークンの構造だ。記号(名前)は残っているが、その記号が何を指していたのかを知る手がかりが失われている。考古学者は陶器のスタイル、武器の形状、建築の様式という非言語的な記号から実体を復元しようとしている。言語的な記号が機能しないとき、人間は別の記号に頼る。
現在のトークン——バズワード
「コンテキストエンジニアリング」という言葉がある。Andrej KarpathyがX(旧Twitter)で体系的に整理したことで広まり、その後Mitchell HashimotoがHarness Engineeringを提唱し、OpenAIが追随した。
しかしこれらの言葉が広まる過程で奇妙なことが起きた。ObsidianのノートをMCPでつなぐことを「コンテキストエンジニアリングだ」と呼ぶ人が現れた。ハーネスエンジニアリングを「また新しいバズワードか」と片付ける人が現れた。言葉が先行し、それぞれの解釈者が独自の実体を後から埋めていった。
海の民とはちょうど逆の構造だ。
海の民は実体が先行し、名前との接続が失われた。バズワードは名前が先行し、実体が拡散した。前者では記号から実体への矢印が切れている。後者では一つの記号に複数の実体が接続されてしまい、どれが本来の実体なのかが曖昧になる。
これが現在のトークンの構造だ。バズワードが「虚しい」と感じられるのは、名前という記号が実体を安定させる機能を果たせていないからだ。名前は本来、人々の認識を一点に収束させるはずのものだ。しかしバズワードは逆に、認識を拡散させる。
さらに言えば、コンテキストエンジニアリング・ハーネスエンジニアリング・プロンプトエンジニアリングのいずれも、実は対立する概念ではなく協調していると考えている。しかしそれが理解されないのは、一つの名前が一つの実体に対応するという前提で言葉を受け取る人が多いからだ。一つの名前が複数の実体の連合を指しうる——これはちょうど「海の民」が複数の集団の連合だった可能性と同じ構造を持っている。
設計のトークン——LLMの整数ID
LLMのトークナイザは、テキストを整数のインデックス(トークンID)に変換する。
"犬" → [37678]
"dog" → [5011]
"猫" → [45940]
「犬」と"dog"は同じ動物を指すが、割り当てられる整数には何の関係もない。数値の近さは意味の近さとまったく無関係だ。これはソシュールが「記号の恣意性」と呼んだ事実のハードウェア実装そのものだ。
「犬」というトークン自体、意味的な必然性からではなく、大量のテキストコーパス上でのバイト共起統計によってたまたまマージされた単位に過ぎない。意味の恣意性はIDの割り当て以前、単位の切り出しの時点からすでに始まっている。
しかしここで重要なのは、この乖離が設計上の選択であるという点だ。海の民の乖離は歴史の偶然によるものだった。バズワードの乖離は社会的な伝播の必然だった。LLMのトークンIDの乖離は、意図的に設計された仕様だ。
なぜ意図的に意味を排除するのか。意味を持たない記号として処理することで、モデルは特定の意味体系に縛られず、数兆トークンの分布パターンから意味を事後的に学習できる。意味は前提として与えられるのではなく、最適化の副産物として創発する。
これが設計のトークンの構造だ。名前と実体の接続を意図的に断ち切ることで、より柔軟な接続が可能になる逆説がそこにある。
三つのトークンの構造比較
| 歴史のトークン(海の民) | 現在のトークン(バズワード) | 設計のトークン(LLM) | |
|---|---|---|---|
| 乖離の方向 | 実体→記号(接続が失われた) | 記号→実体(実体が拡散した) | 設計上の断絶 |
| 乖離の原因 | 時間的断絶 | 社会的伝播 | 意図的設計 |
| 記号の状態 | 残存(他者が付けたラベル) | 先行(実体より前に広まる) | 恣意的(意味を持たない) |
| 実体の状態 | 存在した(復元困難) | 複数・曖昧(収束しない) | 創発する(副産物として) |
三つに共通するのは「名前が実体を安定的に捕まえられない」という事実だ。しかし理由はそれぞれ違う。
なぜ名前は実体を捕まえられないのか
ソシュールは記号に固有の意味はないと言った。「犬」という語は、「猫」でも「狼」でも「獣」でもない何かとして、差異の体系の中で位置を占めることで初めて意味を帯びる。意味は実体ではなく関係だ。
この原理は言語の外でも成立する。
海の民という記号は、エジプトの記録体系の中で「侵略してきた異民族」という位置を占めることで意味を持った。しかしその記号が指す実体——彼ら自身の自己認識、言語、集団的アイデンティティ——への接続は失われた。記号は体系の中で意味を持ち続けるが、実体とは切り離された。
バズワードは、技術コミュニティという体系の中で「最新の概念」という位置を占めることで意味を持つ。しかし体系が広がるにつれ、異なる文脈で異なる実体に接続されていく。記号の意味は体系依存であるがゆえに、体系が複数になれば実体も複数になる。
LLMのトークンIDは、ボキャブラリーという体系の中で単なるインデックスとして存在する。意味は持たない。しかし数兆の文脈という圧倒的なスケールの下で、意味が創発する。
名前が実体を捕まえられないのは、意味が名前の中にあるのではなく、名前と他の名前との関係の中にあるからだ。 実体は固定されているが、関係は変わる。時間が変われば(海の民)、体系が広がれば(バズワード)、スケールが変われば(LLM)、同じ記号が異なる意味を帯びる。
おわりに——それでも命名し続ける理由
名前が実体を完全には捕まえられないとしても、人間は命名をやめない。
海の民の考古学者は、名前なき実体を言語的・非言語的な記号から復元しようとし続ける。バズワードの実践者は、曖昧な名前の下に自分なりの実体を構築しようとする。LLMの設計者は、意味を持たない記号の羅列から意味を創発させる仕組みを作り続ける。
前稿でこう書いた。「100年前の言語学者たちが意味の神秘を解明しようとした場所で、アルゴリズムは神秘に一切触れることなく、その神秘の外側を完全に模倣してしまった。」
名前と実体の乖離もまた、人間の認識の限界ではなく、意味が動的に生成されるという事実の反映かもしれない。捕まえられないのは実体が逃げているのではなく、意味そのものが関係の中で常に更新され続けているからだ。
トークンとは人間が意味を見出すであろうただの器でしかないのかも知れない。