AIエージェントの次へ：「AIが夢を見る『世界モデル』」入門 — 29冊の本で殴る編

Last updated at 2026-01-26Posted at 2026-01-25

「エージェント」「Physical AI」に重要な役割をする「世界モデル」の紹介
- とくに Physical AI のように物理・動的環境で自律行動する Agentic AI では、環境の状態遷移を内部で表現して先読みする仕組み（世界モデル）が効きやすい
理解を深めるための要素技術や関連和書・翻訳書の紹介

東大松尾・岩澤研究室の講座に「世界モデル」というのがあり、なんぞやと関心を持ったのが始まりでした。

このような記事を書き、社内で技術動向調査をしました（残念ながらこれはそのままは公開できないので、別途まとめ記事を書きます）。今回は概要と、理解を深めるために要素技術などとして参考となるのではないかと考える書籍をご紹介します。

世界モデルとは

世界モデル: エージェントの外界環境（これを「世界」と呼ぶ）を認識し未来を予測して、エージェントの行動計画に役立てる仕組み。

ここで「エージェント」という言葉が現在バズワードとなっており、整理すると、

「生成AI」	「エージェント」
「生成AI」	ワークフロー	AI Agent	Agentic AI
プロンプトの指示に回答	ユーザーが手順を指定	限定的な範囲でユーザーの指示にある程度自律的に行動・回答	ユーザーの指示に自律して行動・回答
ChatGPT, Gemini, etc	GPTs, Gems, etc	ChatGPTやGeminiなどの「エージェントモード」	研究中効く／必須になりやすい

このような感じで、Agentic AIとなるとユーザーの指示に対し自律して行動・回答せねばならず、そのためには環境を認識して、未来がどうなるかを予測し、計画を立てて行動する必要がある。そこに世界モデルが必要となる、というわけです。

世界モデルの概要

Dingらのサーベイ"Understanding world or predicting future? a comprehensive survey of world models."¹が詳しく網羅的です。

世界モデル研究の始まり

元々、外界環境を認識する「内部モデル」が必要ではないか、という研究はあったようです。そこに、“World Models”という名前で広めたのがHaらの2018の"World Models"²世界モデルという研究です。

世界モデルの仕組み

研究途上であり、さまざまな手法が提案されていますが、代表手法の一つであるDreamer³の概要としては次のイメージです。

世界の現実（観測変数）を認識するために潜在空間へ圧縮します。

Dreamerは、観測を潜在状態にエンコードし、潜在状態の遷移（ダイナミクス）を学習します。
そして学習した世界モデルの中で、方策（候補行動）に従って複数ステップ先まで「想像（imagination）ロールアウト」を行い、その想像データで方策や価値を更新します。
ここでいう"dream” は比喩で、現実ではなくモデル内部で未来を「想像して」制御する発想を指します。
ただ、ざっくり誤解を恐れずに言えば、つまり「AIが夢を見る」わけです。

そして、環境を認識し、未来を予測するためには環境に対する知識があった方がいいよね、ということで大規模言語モデルや大規模画像モデル、つまり基盤モデルと接続する流れが近年は強くなってきています。

NVIDIAさんは2025年の"Cosmos World Foundation Model Platform for Physical AI"⁴という論文で、世界モデルと基盤モデルを統合したCosmosという「世界基盤モデル」を提案しています。

世界モデルの社会への適用

基本的にはAgentic AIの適用先と同じです。道路環境などを認識し次の状況を予測する必要がある自動運転。ロボットは言わずもがなですね。動画生成も、指定された世界を認識し次を予測してそれを映像にする必要があり世界モデルが必要となってきます。
社会シミュラクラとは社会シミュレーションに近い概念です。仮想の社会を構築しある施策に対する反応などを仮想的に得て意思決定などに役立てるものですね。まだ研究が始まったばかりなので定義が定まっていないようですが、本記事では以下としておきます。

社会シミュレーション
- 微分方程式、ゲーム理論などを用いてシステムとして対象をどう再現できるかに重きをおく
社会シミュラクラ
- 世界モデルを搭載した「エージェント」が自律的に行動して対象の個々の単位（人など）をリアルに再現できるかに重きをおく

という感じです。

今年のバズワードはPhysical AIとなりそうですね。また動画生成も熱いです。ただ地味ながらビジネスに役立つのは社会シミュラクラではないかと考えています。マーケティングや人事政策などで仮想の社会を作成して、どの施策が有効かなどを知ろうというものです。

また別途ご紹介いたします。

世界モデルの要素技術や関連する書籍

全体像

確率・統計、深層学習は当然として、観測するデータ、また知識として必要な基盤モデル。人間の脳の認知を模している面もあり認知科学。予測には深層学習や状態空間モデルなど。意思決定には強化学習が必須です。そして主な応用先のロボティクス関連などがざっと全体像となります。

以下、各論として書籍を紹介していきます。入門書、理論書（テキスト的な）、実装の本（Pythonコードがあるなど）です。
ここら辺の記事などの情報がほとんどないので、あくまでも本記事著者の理解の範囲でとのことでご容赦。

共通基盤（確率・統計、深層学習）

ここは機械学習向けに書いている

の「3.2.1. 統計学の3冊」「3.2.3. 機械学習アルゴリズム-2(深層学習)の4冊」をご参照ください。

観測データ

センサーデータについては私の知見がなくご容赦。画像もあまり取り扱ったことないのですが前掲記事の「3.4.2. 画像処理の1冊」。

自然言語の基礎はこの2冊が基本かなと思いますが、別記事、

の「自然言語処理」の項をご参照ください。

基盤モデル

認知科学・記号創発システム

直接、世界モデルの実装のためというよりも、世界モデルの認識精度を高めるために人間の脳の認識を参考としよう、というようなモチベーションです。
認知科学は文字通りに人間の脳の「認知」について。「記号創発システム」はAIが言葉を理解するための難題「記号接地問題」がありますが、人間と同じようにエージェントたちが行動する中で創発的に言葉つまり記号を生成していくという方向で考えると良いのでは、というようなモチベーションの研究です。

イラストで学ぶ認知科学
- - 認知科学全般の優しめのテキスト
認知科学講座2 心と脳
- - 認知科学の講座（テキストシリーズ）ですが、AIとの関連に重点を置いています
認知科学講座4 心をとらえるフレームワークの展開
- - 前著と同じくAIとの関連に重点を置いています
    - 自由エネルギー原理：脳の認識の有力理論であり、ベイズ推論的なアプローチでAIとの関連が言及されています
    - 記号創発ロボティクス：記号創発システムの概説
    - 全脳アーキテクチャ――：単なるニューラルネットワークではなく、より人間の脳を模した脳型AIの研究
ロボットに心は生まれるか自己組織化する動的現象としての行動・シンボル・意識
- - ある技術に着目するのではなくて「ロボット」と「心」のためには？の1点で「脳科学」、「認知科学」、「現象学」！！！について論じた本
    - 現象学、世界認識に関する哲学の一分野ですね。こういうの会社に言っても伝わらないのですけれど、だからこそ差別化と思って進めております！！！
記号創発システム論ー来るべきAI共生社会の「意味」理解にむけて
- - 例えば「りんご」という言葉から実際のりんごにどう認識を接地させるのかという記号接地問題が人工知能研究にはあります
  - それに対し、人・ロボット・AIなど複数エージェントが、環境との相互作用とコミュニケーションを通じて「りんご」というような記号を作る、つまりその創発メカニズムをモデル化・実装し、検証する研究枠組みというようなものです
  - 現在主流のスケーリング則による大規模化とは違うアプローチとして個人的に期待しています
  - 参考記事としては研究チームの方の記号創発スタディノート#1　なぜ、いま記号創発システム論なのか？　～生成AI時代の「意味」の新学理へ～
心を知るための人工知能: 認知科学としての記号創発ロボティクス (越境する認知科学 5)
- - 記号創発システムの立場から認知科学とロボットの関係を論じている

世界モデルまわり

最先端の分野なのでテキストや技術書はなく、論文を読めって感じです。関連する技術書を。

状態空間モデルは時系列の予測に関わります。代表的なアルゴリズムが「カルマンフィルタ」です。

時系列分析と状態空間モデルの基礎: RとStanで学ぶ理論と実装
- - 時系列分析の本ですが、状態空間モデルの入門としては一番わかりやすいのではないかと思います
  - 状態空間モデルのエンジンとしてのベイズ推論やMCMC
カルマンフィルタの基礎と実装―自動運転・移動ロボット・鉄道への実践まで―［改訂版］
- - 世界モデルでの予測・制御に近い場面での状態空間モデルの適用例

意思決定・応用

強化学習

機械学習スタートアップシリーズ Pythonで学ぶ強化学習 [改訂第2版] 入門から実践まで
- - 類書が増えてきたので別の本でも良いかもしれないですが、本記事著者はこれの初版を読みました
  - Pythonコード付きで強化学習の基本からDQNなど主要なアルゴリズムを学べる。Pythonを知っており、ある程度機械学習などをやったことがある人ならば最初の1冊にいいかも
  - 著者によるサポートページhttps://github.com/icoxfog417/baby-steps-of-rl-jaが充実しています
詳解強化学習の発展と応用ロボット制御・ゲーム開発のための実践的理論
- - 強化学習をロボットなどに適用するには？のより実践的な解説です
強化学習 (機械学習プロフェッショナルシリーズ)
- - 世界モデルで標準的に使われる、プランニング／モデルベース／POMDPなどが章にまとまっていてわかりやすい
強化学習（第2版）
- - やはりバイブル、議論されていることがほぼ書かれています

意思決定

意思決定のためのアルゴリズム I　確率的推論と逐次意思決定の基礎
意思決定のためのアルゴリズム II　モデル・状態の不確実性とマルチエージェント
- - まさに世界モデルの世界の認識と未来の予測を受けての意思決定と計画立案のところのアルゴリズムについて書かれています
  - 不確実性下の意思決定について、確率的推論$\rightarrow$逐次意思決定（計画）$\rightarrow$モデル不確実性$\rightarrow$状態不確実性（信念/POMDP）$\rightarrow$マルチエージェントと、「意思決定」を目的としてつながって解説されているのが良いですね
  - Juliaコード例と章末問題に詳しい解説付き

実行・応用

既述のように世界モデルの適用先はロボットだけではないですがそれ以外の書籍が手薄なのでひとまずロボットに世界モデルを適用する関連を。

詳解　確率ロボティクス　Ｐｙｔｈｏｎによる基礎アルゴリズムの実装
- - ロボット制御についての解説書。世界モデルという用語は出てこないですが基礎的な世界モデル的な仕組みを解説している
SLAM入門(改訂2版) ―ロボットの自己位置推定と地図構築の技術―
- - SLAM(Simultaneous Localization and Mapping)とは、ロボットなどが、未知の環境でカメラやLiDARセンサーを使い、「自身の位置推定（Localization）」と「周囲の地図作成（Mapping）」を同時に行う技術です。ここの文脈的には世界の認識まわりですね
確率ロボティクス (プレミアムブックス版)
- - ロボティクスのバイブル
基盤モデルとロボットの融合マルチモーダルAIでロボットはどう変わるのか
- - LLMやLVMのような大規模言語モデルをロボットにどう使うかの研究の現況を解説した本
  - ロボット研究の場では言葉や画像を生成する基盤モデルを取り入れようという動きは少なかったとのこと。それが昨今のモデル性能向上により、制御にも使えるのでは？と融合しつつある状況とのこと
  - サーベイ論文を一般向けに書くとこうなるのかな？というような「世界モデル」の本筋とは異なりますが、技術動向調査をするならこう書こうとお手本のような本

DING, Jingtao, et al. Understanding world or predicting future? a comprehensive survey of world models. ACM Computing Surveys, 2025, 58.3: 1-38. https://dl.acm.org/doi/10.1145/3746449 ↩
HA, David; SCHMIDHUBER, Jürgen. World models. arXiv preprint arXiv:1803.10122, 2018, 2.3. https://arxiv.org/abs/1803.10122 ↩
HAFNER, Danijar, et al. Dream to control: Learning behaviors by latent imagination. arXiv preprint arXiv:1912.01603, 2019. ↩
AGARWAL, Niket, et al. Cosmos world foundation model platform for physical ai. arXiv preprint arXiv:2501.03575, 2025. https://arxiv.org/abs/2501.03575 ↩

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up