- 「エージェント」「Physical AI」に重要な役割をする「世界モデル」の紹介
- とくに Physical AI のように物理・動的環境で自律行動する Agentic AI では、環境の状態遷移を内部で表現して先読みする仕組み(世界モデル)が効きやすい
- 理解を深めるための要素技術や関連和書・翻訳書の紹介
東大松尾・岩澤研究室の講座に「世界モデル」というのがあり、なんぞやと関心を持ったのが始まりでした。
このような記事を書き、社内で技術動向調査をしました(残念ながらこれはそのままは公開できないので、別途まとめ記事を書きます)。今回は概要と、理解を深めるために要素技術などとして参考となるのではないかと考える書籍をご紹介します。
世界モデルとは
- 世界モデル
- エージェントの外界環境(これを「世界」と呼ぶ)を認識し未来を予測して、エージェントの行動計画に役立てる仕組み。
ここで「エージェント」という言葉が現在バズワードとなっており、整理すると、
| 「生成AI」 | 「エージェント」 | ||
|---|---|---|---|
| ワークフロー | AI Agent | Agentic AI | |
| プロンプトの指示に回答 | ユーザーが手順を指定 | 限定的な範囲でユーザーの指示にある程度自律的に行動・回答 | ユーザーの指示に自律して行動・回答 |
| ChatGPT, Gemini, etc | GPTs, Gems, etc | ChatGPTやGeminiなどの「エージェントモード」 | 研究中 効く/必須になりやすい |
このような感じで、Agentic AIとなるとユーザーの指示に対し自律して行動・回答せねばならず、そのためには環境を認識して、未来がどうなるかを予測し、計画を立てて行動する必要がある。そこに世界モデルが必要となる、というわけです。
世界モデルの概要
Dingらのサーベイ"Understanding world or predicting future? a comprehensive survey of world models."1が詳しく網羅的です。
世界モデル研究の始まり
元々、外界環境を認識する「内部モデル」が必要ではないか、という研究はあったようです。そこに、“World Models”という名前で広めたのがHaらの2018の"World Models"2世界モデルという研究です。
世界モデルの仕組み
研究途上であり、さまざまな手法が提案されていますが、代表手法の一つであるDreamer3の概要としては次のイメージです。
世界の現実(観測変数)を認識するために潜在空間へ圧縮します。
Dreamerは、観測を潜在状態にエンコードし、潜在状態の遷移(ダイナミクス)を学習します。
そして学習した世界モデルの中で、方策(候補行動)に従って複数ステップ先まで「想像(imagination)ロールアウト」を行い、その想像データで方策や価値を更新します。
ここでいう"dream” は比喩で、現実ではなくモデル内部で未来を「想像して」制御する 発想を指します。
ただ、ざっくり誤解を恐れずに言えば、つまり「AIが夢を見る」わけです。
そして、環境を認識し、未来を予測するためには環境に対する知識があった方がいいよね、ということで大規模言語モデルや大規模画像モデル、つまり基盤モデルと接続する流れが近年は強くなってきています。
NVIDIAさんは2025年の"Cosmos World Foundation Model Platform for Physical AI"4という論文で、世界モデルと基盤モデルを統合したCosmosという「世界基盤モデル」を提案しています。
世界モデルの社会への適用
基本的にはAgentic AIの適用先と同じです。道路環境などを認識し次の状況を予測する必要がある自動運転。ロボットは言わずもがなですね。動画生成も、指定された世界を認識し次を予測してそれを映像にする必要があり世界モデルが必要となってきます。
社会シミュラクラとは社会シミュレーションに近い概念です。仮想の社会を構築しある施策に対する反応などを仮想的に得て意思決定などに役立てるものですね。まだ研究が始まったばかりなので定義が定まっていないようですが、本記事では以下としておきます。
- 社会シミュレーション
- 微分方程式、ゲーム理論などを用いてシステムとして対象をどう再現できるかに重きをおく
- 社会シミュラクラ
- 世界モデルを搭載した「エージェント」が自律的に行動して対象の個々の単位(人など)をリアルに再現できるかに重きをおく
という感じです。
今年のバズワードはPhysical AIとなりそうですね。また動画生成も熱いです。ただ地味ながらビジネスに役立つのは社会シミュラクラではないかと考えています。マーケティングや人事政策などで仮想の社会を作成して、どの施策が有効かなどを知ろうというものです。
また別途ご紹介いたします。
世界モデルの要素技術や関連する書籍
全体像
確率・統計、深層学習は当然として、観測するデータ、また知識として必要な基盤モデル。人間の脳の認知を模している面もあり認知科学。予測には深層学習や状態空間モデルなど。意思決定には強化学習が必須です。そして主な応用先のロボティクス関連などがざっと全体像となります。
以下、各論として書籍を紹介していきます。入門書、理論書(テキスト的な)、実装の本(Pythonコードがあるなど)です。
ここら辺の記事などの情報がほとんどないので、あくまでも本記事著者の理解の範囲でとのことでご容赦。
共通基盤(確率・統計、深層学習)
ここは機械学習向けに書いている
の「3.2.1. 統計学の3冊」「3.2.3. 機械学習アルゴリズム-2(深層学習)の4冊」をご参照ください。
観測データ
センサーデータについては私の知見がなくご容赦。画像もあまり取り扱ったことないのですが前掲記事の「3.4.2. 画像処理の1冊」。
自然言語の基礎はこの2冊が基本かなと思いますが、別記事、
の「自然言語処理」の項をご参照ください。
基盤モデル
認知科学・記号創発システム
直接、世界モデルの実装のためというよりも、世界モデルの認識精度を高めるために人間の脳の認識を参考としよう、というようなモチベーションです。
認知科学は文字通りに人間の脳の「認知」について。「記号創発システム」はAIが言葉を理解するための難題「記号接地問題」がありますが、人間と同じようにエージェントたちが行動する中で創発的に言葉つまり記号を生成していくという方向で考えると良いのでは、というようなモチベーションの研究です。
- イラストで学ぶ認知科学
- 認知科学講座2 心と脳
- 認知科学講座4 心をとらえるフレームワークの展開
- ロボットに心は生まれるか 自己組織化する動的現象としての行動・シンボル・意識
-
記号創発システム論ー来るべきAI共生社会の「意味」理解にむけて
-
- 例えば「りんご」という言葉から実際のりんごにどう認識を接地させるのかという記号接地問題が人工知能研究にはあります
- それに対し、人・ロボット・AIなど複数エージェントが、環境との相互作用とコミュニケーションを通じて「りんご」というような記号を作る、つまりその創発メカニズムをモデル化・実装し、検証する研究枠組みというようなものです
- 現在主流のスケーリング則による大規模化とは違うアプローチとして個人的に期待しています
- 参考記事としては研究チームの方の記号創発スタディノート#1 なぜ、いま記号創発システム論なのか? ~生成AI時代の「意味」の新学理へ~
-
- 心を知るための人工知能: 認知科学としての記号創発ロボティクス (越境する認知科学 5)
世界モデルまわり
最先端の分野なのでテキストや技術書はなく、論文を読めって感じです。関連する技術書を。
状態空間モデルは時系列の予測に関わります。代表的なアルゴリズムが「カルマンフィルタ」です。
意思決定・応用
強化学習
-
機械学習スタートアップシリーズ Pythonで学ぶ強化学習 [改訂第2版] 入門から実践まで
-
- 類書が増えてきたので別の本でも良いかもしれないですが、本記事著者はこれの初版を読みました
- Pythonコード付きで強化学習の基本からDQNなど主要なアルゴリズムを学べる。Pythonを知っており、ある程度機械学習などをやったことがある人ならば最初の1冊にいいかも
- 著者によるサポートページhttps://github.com/icoxfog417/baby-steps-of-rl-jaが充実しています
-
- 詳解 強化学習の発展と応用 ロボット制御・ゲーム開発のための実践的理論
- 強化学習 (機械学習プロフェッショナルシリーズ)
- 強化学習(第2版)
意思決定
実行・応用
既述のように世界モデルの適用先はロボットだけではないですがそれ以外の書籍が手薄なのでひとまずロボットに世界モデルを適用する関連を。
-
DING, Jingtao, et al. Understanding world or predicting future? a comprehensive survey of world models. ACM Computing Surveys, 2025, 58.3: 1-38. https://dl.acm.org/doi/10.1145/3746449 ↩
-
HA, David; SCHMIDHUBER, Jürgen. World models. arXiv preprint arXiv:1803.10122, 2018, 2.3. https://arxiv.org/abs/1803.10122 ↩
-
HAFNER, Danijar, et al. Dream to control: Learning behaviors by latent imagination. arXiv preprint arXiv:1912.01603, 2019. ↩
-
AGARWAL, Niket, et al. Cosmos world foundation model platform for physical ai. arXiv preprint arXiv:2501.03575, 2025. https://arxiv.org/abs/2501.03575 ↩















