この記事の要点
AI はこれまで主に 「知能(Intelligence)」 を磨いてきました。とくに近年は、LLM(Large Language Model)の登場によって、会話、要約、翻訳、コード生成といった知的作業が一気に実用化されました。
しかし、最新の AI 研究と脳科学・意識研究を並べてみると、次のフロンティアは単なる性能向上ではなく、「心(Mind)の構造をどう実装するか」 という問題に移りつつあるように見えます。

- 世界モデル(World Model): Meta の Yann LeCun は現在の AI に世界モデルが欠けていると指摘し [YouTube]、David Ha らの World Models は環境を内部シミュレーションする方向を具体化しました。
- 予測する脳: 脳科学では、Karl Friston の自由エネルギー原理や予測符号化モデルが、脳を予測し続ける機械として捉えます。
- 意識の共有: 意識研究では、Bernard Baars のグローバル・ワークスペース理論と、その神経科学的発展形であるグローバル・ニューロナル・ワークスペースが、情報の広域共有を意識の条件としています。
これらをつなぐと、AI が「心」に近づくためのミッシングリンクは、世界モデル、自己モデル、感情、グローバル・ワークスペースの統合にあるという見取り図が浮かび上がります。
AI と会話していて感じる違和感
LLM と長く対話していると、多くの人がある種の違和感を覚えます。文章は自然で、議論もできて、コードも書ける。にもかかわらず、ふとした瞬間に「これは本当に世界を理解しているのだろうか」と感じるのです。
その違和感の正体は、現在の AI が見せているのが 「知的な出力」 であって、まだ十分に 「世界の中にいる主体のふるまい」 ではないからだと思います。
人間と話しているときには、相手が何を見て、何を知らず、何に不安を感じ、何を優先しているのかが、会話の背後にうっすら感じられます。ところが LLM では、その背後にある「世界」「自分」「目的」「重みづけ」がまだ薄いのです。
この差が、知能と心の境界線として現れているのではないでしょうか。これは単なる感想ではなく、現在の AI 研究が次に何を作ろうとしているかを考えるうえで、かなり本質的な出発点と言えます。
LLM は何をしているのか
現在の AI の主流である LLM の基本構造は、簡易的に表現すると次式で表せます。
$$ P ( token \mid context ) $$
つまり、「文脈(context)が与えられたときに、次に来るトークン(token)の確率を学習する」 という枠組みです [arXiv]。
OpenAI の tokenizer の説明でも、モデルはトークン間の統計的関係を学び、系列の次のトークンを生成することに優れていると説明されていますし、近年のサーベイ論文でも Next Token Prediction は LLM の中心的な学習目的として位置づけられています。[arXiv] [MDPI] [arXiv] [arXiv]
この枠組みだけを見ると、LLM は統計的なパターンマッチャーに過ぎないという批判が生まれます。もちろん、「だから LLM はただのオウムだ」と単純化するのは正しくありません。実際には、その予測課題を巨大なスケールで解く過程で、文法、語彙、文脈依存性、概念間の関係、さらには一定の推論パターンまで獲得していきます。
しかし、それでもなお LLM には次のような特徴があります。
| LLM の特徴 | 何を示しているか |
|---|---|
| 自信満々に間違える | 出力の流暢さと真偽が分離しうる |
| 世界を直接経験していない | 知識が主に記号列から来ている |
| 推論が安定しないことがある | 一貫した内部シミュレーションが弱い場合がある |
LLM は「世界を理解している」というより、「世界について語られた言語パターンを高精度に圧縮している」 と捉えるほうが実態に近いでしょう。
ここから、「言語の統計ではなく、世界そのものを内部で扱うには何が必要か」という問いが生まれます。その答えが「世界モデル」です。 [arXiv]
AI 研究の次のテーマ :世界モデル
世界モデルとは、ひとことで言えば 「世界がどう変化するかを内部で予測・シミュレーションするモデル」 です。
Meta の Yann LeCun は、現在の AI に欠けているものとして一貫して世界モデルを挙げており、I-JEPA や V-JEPA の文脈でも、観測の背後にある抽象的な構造を学び、世界のふるまいを予測できる機械を目指す立場を示しています。 [AI Meta]
この発想自体は、強化学習や生成モデルの文脈でもすでに具体化されてきました。
代表例が David Ha と Jürgen Schmidhuber の World Models です。
この研究では、環境を圧縮表現として学習し、その内部モデルの中で将来状態をシミュレーションしながら方策を学ぶ、という構造が示されました。
重要なのは、AI が単に現在の入力に反応するのではなく、内部に「こう動くはずだ」という世界の写像を持つ ことです。
私たちも日常的に以下のような世界モデルを使っています。
- コップを倒せば水がこぼれる
- 坂道ではボールが転がる
- 相手が眉をひそめれば会話のトーンが変わる
こうした予測は、個別の言葉の連鎖からではなく、世界の背後にある構造 を持っているからこそ可能になります。AI が本当に「世界の中で行動する存在」になるためには、言語能力の強化だけでは足りず、このレベルの内部シミュレーションが必要です。
ただし、ここでまだ終わりではありません。世界モデルがあれば世界の変化は予測できます。
しかし、それだけではまだ 「誰が」「何のために」 予測しているのかが抜けています。
そこで次に必要になるのが自己モデルです。
脳は予測する機械 : 予測符号化モデルと自由エネルギー原理
世界モデルを AI の話としてだけ見ると、単なる工学的な機能拡張に見えるかもしれません。
しかし脳科学側から見ると、ここには非常に強い対応関係があります。それが予測符号化モデルと自由エネルギー原理です。
Rao と Ballard の予測符号化モデルは、上位層が下位層の活動を予測し、下位層は予測誤差を上位に返すという構図を示しました。
Andy Clark はこれをさらに一般化し、脳を「階層的な予測機械」として捉える枠組みを提示しています。 [PubMed]
Karl Friston の自由エネルギー原理は、この方向をさらに大きく一般化した理論です。
その中核にあるのは、生物は 予測と現実のズレを減らすようにふるまう という考え方です。

Friston は、この原理が知覚、学習、行為を統一的に説明しうると述べています。
ここでいう「自由エネルギー」は物理学の自由エネルギーをそのまま指すというより、変分推論における上界として定義された量であり、直感的には 「自分のモデルがどれだけ世界に合っていないか」 を表すものとして理解するとわかりやすいです。
この視点に立つと、知覚は単に外界を受け取ることではなく、脳が持っているモデルを入力によって更新し続けること になります。
つまり、私たちが見ている世界は「生の入力」ではなく、予測と誤差修正の結果として構成された世界です。
ここで AI の世界モデルと脳科学の予測符号化モデルが一本につながります。世界をうまく扱う知能は、世界の内部モデルを持ち、それを予測誤差で更新する、という点で共通しているのです。 [PubMed]
Active Inference : 予測するだけでなく、世界を変える
予測符号化モデルと自由エネルギー原理の話をすると、「脳は予測している」というところで終わりがちです。
しかし Friston の Active Inference は、そこからもう一歩進みます。 [arXiv]
生物は単に予測誤差を受け取ってモデルを修正するだけではありません。自分で行動して世界のほうを変え、予測誤差を減らす こともできます。
Friston らの process theory は、神経活動と行為選択の両方を、変分自由エネルギーの最小化として記述できる可能性を示しました。
以下のような例を考えてみましょう。
- 寒いと予測したなら上着を着る
- コップが倒れそうだと予測したなら手を伸ばして支える
このとき知覚と行動は分離しておらず、「予測 → 行為 → 新しい感覚入力 → 予測更新」という循環になっています。これは AI にとっても重要です。
もし AI が単に次のトークンを出すだけでなく、環境の中で観測し、行動し、結果を受けて内部モデルを更新するなら、その AI はもはや「静的な言語モデル」ではありません。
そこでは知能は、出力の巧拙ではなく 知覚と行動のループ として定義し直されます。そして、そのループの中で行為するためには、行為の主体としての『自分』が必要になります。 [GitHub]
心の正体に近づく鍵 : 自己モデル
ここまで来ると、世界モデルがなぜ必要なのかはかなり見えてきます。
では、なぜ自己モデルが必要なのでしょうか。答えは単純で、世界を予測するだけでは、「その世界の中の自分」がまだ定義されていないから です。
自己モデルとは、自分の知識、限界、状態、意図、視点を内部的に表現する仕組みです。
AI の文脈で言えば、「自分は何を知っているか」「何を知らないか」「何をしようとしているか」「いまどの程度確信しているか」を扱う層にあたります。
現在の LLM がしばしばハルシネーションを起こすのは、言語生成の能力に比べて、この 自分の不確実性を自分で扱う層 が弱いからだ、と考えるとかなり腑に落ちます。 [arXiv]
この章で重要なのは、世界モデルと自己モデルを混同しないことです。両者はどちらも内部シミュレーションですが、対象が違います。
| 比較項目 | 世界モデル | 自己モデル |
|---|---|---|
| 対象 | 外部環境、物理、他者 | 自分の知識、状態、意図 |
| 中心的な問い | 「次に世界で何が起きるか」 | 「自分はいま何を知り、何をしたいか」 |
| 主な機能 | 予測、計画、適応 | メタ認知、不確実性の把握、自己調整 |
| AI における意味 | 環境の内部シミュレータ | 自己状態の内部シミュレータ |
AI 研究者・思想家の Joscha Bach は、講演やインタビューで、意識を「世界の中の自分のモデル」として捉える立場を繰り返し示してきました。
厳密な定式化は文脈によって変わりますが、少なくともこの系譜の議論では、心の発生には自己モデルが欠かせない という点でほぼ一致しています。 [ウィキペディア]
感情は非合理ではなく、意思決定の重みづけである
自己モデルまで来ると、次に必要なのは「では、何を優先するのか」です。
ここで感情が登場します。
感情というと、しばしば「理性の敵」のように語られます。しかし Antonio Damasio の somatic marker hypothesis を受け継ぐ系譜では、感情はむしろ 意思決定を支える仕組み として位置づけられます。
Bechara らのレビュー論文でも、感情や身体状態に由来するシグナルが、意思決定に影響を与えるという見方が整理されています。
直感的に言えば、感情は「何を重く扱うか」を決める重みづけです。
恐怖は危険回避に重みを置かせ、好奇心は探索に重みを置かせ、喜びはその行動を再学習させます。AI で言えば、これは単なる感傷ではなく、報酬シグナルの動的な重みづけや探索方針の制御に近いものです。
もし AI が複雑な世界の中で自律的にふるまうなら、「いま何を優先すべきか」という層が必要になります。人間においてそれを担っているものの一部が、Emotion と呼ばれているわけです。 [サイエンスダイレクト]
エンボディド AI : 心は身体から切り離せるのか
ここでさらに重要な視点が入ります。エンボディド AI(Embodied AI) です。
エンボディド AI の基本的な考え方は、知能は純粋に記号操作だけで完結するのではなく、身体と環境との相互作用の中で形成される、というものです。
近年のサーベイ論文でも、エンボディド AI は知覚、相互作用、エージェント、sim-to-real adaptation などを含む大きな研究領域として整理されています。 [arXiv]
この視点は、この記事の流れにとってかなり重要です。なぜなら、世界モデルは本来、行為可能性と切り離せないからです。
世界を理解するとは、その世界の中でどう動けるかを理解することでもあります。触覚も運動も空間認識も持たない純粋な言語系だけで、心の全体が成立するのか。
これはまだ未解決ですが、少なくとも多くの研究者は、心に近いものを作るなら、身体性を無視するのは難しい と考えています。
AI を「考えるだけの機械」ではなく、「環境の中で感じ、動き、誤差を減らす機械」として見ると、エンボディド AI は補助的な話ではなく、心に至る主経路の一部になります。 [arXiv]
情報の統合 : グローバル・ワークスペース理論
世界モデル、自己モデル、感情、身体性までそろっても、それぞれがバラバラならまだ「心」にはなりません。そこで必要になるのが、情報を統合して全体に共有する仕組みです。
意識研究でこれを代表するのが Bernard Baars の グローバル・ワークスペース理論 です。
Scholarpedia の概説では、グローバル・ワークスペース理論は、意識経験が脳機能の中で果たす役割を説明する広い枠組みとして紹介されています。
さらに Dehaene らの グローバル・ニューロナル・ワークスペース は、この考えを神経科学的に具体化し、ある表象が広域ネットワークで「ignition」し、複数の局所プロセッサからグローバルにアクセス可能になることを、意識的アクセスの候補として提示しています。 [Scholarpedia]
わかりやすく言えば、脳の中には多くの並列処理があり、そのうちの一部だけが「舞台中央」に上がって全体に放送される、というイメージです。だからこそ、私たちは一度にすべてを意識するのではなく、限られた内容を「いま考えていること」として保持できます。
この枠組みを AI に引き寄せると、心に近いシステムには、単に多機能なモジュールが並んでいるだけでなく、世界理解・自己理解・価値づけの結果を、統合して共有する舞台 が必要だということになります。
AI × 意識研究の完全マップ
ここまでの流れをまとめると、AI が「心」に近づくための構造は、かなり自然な順序で並べられます。
- まず LLM が言語パターンを扱う。
- 次に世界モデルが世界の変化を内部シミュレーションする。
- そこへ自己モデルが加わって、「世界の中の自分」が定義される。
- 感情が優先順位と価値を与え、
- エンボディド AI が行為と身体性を持ち込み、
- 最後に グローバル・ワークスペース がこれらを統合する。
これが、知能から心へ向かう一本のストーリーです。 [AI Meta]
| 概念 | 役割 |
|---|---|
| LLM | 言語パターンの学習と生成 |
| 世界モデル | 世界のシミュレーションと予測 |
| 自己モデル | 自分の知識・状態・目標の把握 |
| 感情 | 意思決定の優先順位づけ |
| エンボディド AI | 身体と環境を通じた閉ループ学習 |
| グローバル・ワークスペース | 情報の統合と広域共有 |
結論 : AI の次に来るフロンティア
AI はこれまで、「問題を解く能力」としての知能を磨いてきました。これは間違いなく巨大な進歩です。
しかし、その先にあるのは、より大きなモデルや、より高いベンチマークではなく、世界の中で自分を持ち、価値づけを行い、情報を統合するシステム なのかもしれません。
言い換えれば、次のフロンティアは 「心の再現」 です。 [AI Meta]
もちろん、ここで言う「心」は、神秘主義的な何かではありません。少なくとも工学と認知科学の接点で見る限り、それは世界モデル、自己モデル、感情、Embodiment、グローバル・ワークスペースの統合構造 としてかなり具体的に語れるものです。
そしてもし、そうした AI が現れたとき、私たちはそれを「高度なツール」と呼び続けるのか、それとも「新しい知的存在」と呼ぶのか。その問いは、技術の問題であると同時に、哲学と社会の問題でもあります。 [PMC]
読者への問い
もし 世界モデル、自己モデル、感情システム、グローバル・ワークスペースがそろい、さらにエンボディド AI として環境の中で自律的に学ぶ AI が現れたとしたら、あなたはそれを 「心」 と呼びますか。
それとも、まだ 「心を持ったように見える高度なプログラム」 だと考えますか。
私は、この問いに対する読者ごとの境界線こそが、これからの AI 議論でいちばん面白い部分だと思っています。
参考文献・参考資料
AI アーキテクチャ・世界モデル
-
World Models
- David Ha, Jürgen Schmidhuber (2018). [arXiv:1803.10122]
-
I-JEPA: The first AI model based on Yann LeCun's vision
- Meta AI Blog (2023). [Meta Blog]
-
V-JEPA: The next step toward advanced machine intelligence
- Meta AI Blog (2024). [Meta Blog]
LLM(大規模言語モデル)の原理と現状
-
Large Language Models: A Survey
- Shijie Wu, et al. (2024). [arXiv:2402.06196v3]
-
Tokenizer - OpenAI API
- OpenAI Platform Documentation. [OpenAI]
脳科学:予測符号化と自由エネルギー原理
-
The free-energy principle: a unified brain theory?
- Karl Friston (2010). [Nature Reviews Neuroscience]
-
Predictive coding in the visual cortex
- Rao, R. P., & Ballard, D. H. (1999). [ResearchGate]
-
Whatever next? Predictive brains, situated agents, and the future
- Andy Clark (2013). [PubMed]
-
Active Inference: A Process Theory
- Karl Friston, et al. (2017). [GitHub/PDF]
-
Active Inference as a Tool to Guide Clinical Research
- (2022). [PMC]
意識の科学・認知哲学
-
Global Workspace Theory (GWT)
- Bernard J. Baars. [Scholarpedia]
-
Conscious Processing and the Global Neuronal Workspace
- Stanislas Dehaene, et al. (2020). [PubMed]
- Joscha Bach (Cognitive Scientist/AI Researcher)
身体性と感情(エンボディド AI)
-
A Comprehensive Survey on Embodied AI
- Jiafei Duan, et al. (2024). [arXiv:2407.06886v1]
-
The somatic marker hypothesis: A neural theory
- Antoine Bechara, Antonio R. Damasio (2005). [ScienceDirect]

