はじめに
私はAIの専門家ではありません。
これから記事にすることは正解が出ていない領域の話をいろんな観点から見てみたという記録です。
ChatGPTみたいなLLMは、ひたすら「次の単語」を当てる練習だけで育っている。海も見たことがないし、リンゴを握ったこともない。彼らはテキストに落とされない世界のことをどれだけ知っているのか?
言葉しか食べていないのに、世界を分かっているように見える。これって、本当に「分かって」いるんでしょうか。それとも、分かっているフリがめちゃくちゃ上手いだけなんでしょうか。
この記事は研究の解説ではなく、一人のAIウォッチャーが「世界モデル」という論点をうろうろ調べ歩いた記録です。正確な議論は元論文にあたってください。
そもそも「世界モデル」ってなに?
調べはじめてすぐ、自分が言葉の意味をふわっとしか掴んでいないことに気づきました。世界モデル、世界モデルと言うけれど、それって結局なんなんでしょう。
ざっくり言うと、こういうことらしいです。頭の中にある「世界はこう動く」という小さな模型。たとえばあなたがコップを机の端に置いたら、たぶん「あ、落ちる」と一瞬ヒヤッとしますよね。実際に落とさなくても、頭の中で先回りして結果が見えている。この「先回りできる内部の模型」が世界モデルです。

人間は当たり前のようにこれを持っています。ボールが転がってくれば避けるし、扉を押すべきか引くべきか、見た瞬間になんとなく分かる。いちいち全部を試さなくても、頭の中のシミュレーターが「こうなるはず」を返してくれる。
AIの世界でも、この「内部のシミュレーター」を持たせようという発想は昔からあります。次に何が起きるかを予測し、頭の中で試せるモデル。それがあれば、AIは現実で失敗する前に、頭の中で何度も予行演習できるわけです。
そこで冒頭の問いに戻ります。LLMは言葉しか食べていない。なのに、その内側に「世界はこう動く」という模型を、こっそり組み上げているんでしょうか。それとも、模型なんてどこにもなくて、ただ言葉のつながりを上手になぞっているだけなんでしょうか。
ここを確かめたくて、いろんな人の意見を調べてみました。
言葉しか知らない子どもが、頭の中に盤面を持っていた
最初にぶつかったのが、オセロを覚えたAIの話でした。
研究者たちは、AIにオセロの「打った手の記録」だけを大量に読ませました。盤面の画像も、ルールも、一切教えていません。ただ「a1, c4, d3……」という棋譜の文字列を、次の手を当てる練習として読ませただけ。
ところが、その内部をのぞいてみると——AIは頭の中に盤面を作っていたんです。どのマスが自分の色か、相手の色か。見たこともない盤面を、文字列だけから組み立てていた。
これ、正直ゾッとしました。言葉(記号)の並びを当てているだけのはずなのに、その裏で「世界の状態」が立ち上がっている。
似た話はもっと大きなモデルでも見つかっています。LLMの中をのぞいたら、都市や場所の「位置」や、出来事の「時代」を表すニューロンがあった、という研究。研究者は控えめに「世界モデルの材料は揃っているようだ」と書いていました。
材料は、ある。ここまで読んで、私は完全に肯定派に傾いていました。言葉だけでも世界の輪郭は立ち上がるんだ、と。
「予測がうまい」と「世界を分かってる」は、違う
ところが、ここで冷や水をかけられます。
ハーバードの研究チームが、こんな実験をしていました。惑星の軌道データをAIにひたすら学ばせる。すると、AIは次にどこへ動くかを見事に予測できるようになる。じゃあこのAIは、その裏で重力の法則——ニュートン力学を理解しているのか?
調べたら、していませんでした。
予測は完璧なのに、そこから法則を取り出させようとすると、まるで見当違いの「力」をでっち上げる。研究者はこれを、天文学の歴史になぞらえていました。ケプラーまでは行けても、ニュートンには行けない。
ケプラーは星の動きを正確に記述する式を見つけました。でも「なぜそう動くのか」は説明できなかった。それを説明したのがニュートンの万有引力です。AIはどうやら、ケプラーの手前で止まっている疑いがある。
これ、刺さりました。私が「世界を分かってる」と思っていたものは、ただの「ものすごく精度の高い丸暗記」かもしれない。表で正解を出していても、裏に法則の理解があるとは限らないわけです。
「次が当たる」ことと「仕組みを分かっている」ことは別物——という指摘。予測精度だけでAIの理解を測ると、足をすくわれそうです。
「全部でたらめだ」と言い切る人もいる
もっと過激な意見もありました。
AIの大御所、ヤン・ルカン。彼はそもそも「言葉だけのLLMで賢さに到達するなんて、完全にナンセンスだ」という立場です。言葉のトークンをいくら並べても、世界の内的なモデルは作れない、と。
彼が推しているのは、言葉ではなく映像やセンサーから世界を学ぶ別の仕組み(JEPA)。2025年の終わりには、その道を進むためにMetaを去ったというニュースまで流れていました。本気度がうかがえます。
ただ、ここで素人なりに「うーん」と引っかかったこともあります。ルカンは以前、「テキストだけで育ったAIは、机の上の本を押したら本も一緒に動く、なんて永遠に理解できない」と予言していた。でも、その予言はあっさり外れた、と指摘する人たちがいるんです。
否定派の急先鋒ですら、予言を一つ外している。だとしたら、いま「絶対に無理」と言い切るのも、ちょっと早いのかもしれない。逆に「もう分かってる」と言い切るのも、早い。
宙吊りのまま、机に戻る
調べ終えて、私の手元に残ったのは、きれいな結論ではなく、三つの声でした。
「材料は揃っている」と言う人。
「予測がうまいだけで、分かってはいない」と言う人。
「そもそも言葉だけじゃ永遠に無理だ」と言う人。
困ったことに、どれを聞いても、その瞬間は頷けてしまうんです。オセロの盤面の話を聞けば希望が湧くし、ケプラーの話を聞けば現実に引き戻されるし、ルカンの話を聞けば「確かに言葉だけって不自由だよな」と思う。
たぶん、いちばん正直な現在地はこうです。LLMの中には世界の"影"のようなものがある。でも、それが本物の世界モデルなのか、影が偶然それっぽく見えているだけなのか、まだ誰にも言い切れない。
そして気づいたんですが、これってAIだけの話じゃない気もしてきました。私たちだって、海を見たことのない言葉から海を想像できる。本で読んだだけの国を、なんとなく「知っている」気になる。言葉から立ち上がる世界が、どこまで本物なのか——それは人間にとっても、けっこう怪しい問いなんじゃないか。
答えは出しません。出せませんでした。
もしあなたなりの答えや、面白い論文を知っていたら、ぜひ教えてください。
※この記事は2026年5月時点で調べた情報をもとにした、素人の散歩記録です。研究の解釈に誤りがあればご指摘ください。