「“身体”を持つAI Agent vs 持たないAgent：なぜ世界を“正しく理解できない”のか？」

Last updated at 2026-03-26Posted at 2026-03-24

ChatGPTのようなAIは、本当に「世界を理解している」と言えるのでしょうか？
答えは、おそらくNoです。

一方で、ロボットのように“身体”を持つAIは、環境との相互作用を通じて学習します。

この違いは単なる実装の差ではなく、「空間の構造（多様体）」の違いとして説明できます。

まず、直感的に違いを図で見てみます。

違いは1つだけです。

身体を持たないAgent：世界と切り離された「閉じた推論」
身体を持つAgent：環境との「ループ（相互作用）」

――「ループ（環境との相互作用）」があるかどうか。
この ループの有無が、「世界を正しく理解できるか」 を決めます。

この違いは、単なる実装の違いではありません。

「どのような空間で推論しているか」という、
幾何学的な構造の違いとして捉えることができます。

この 「ループの有無」 は、単なる理論ではなく、

強化学習（RL）
ロボティクス
自律エージェント

といった分野において、学習や適応のあり方に本質的な違い として現れます。

（重要な補足）

なお、ここで言う 「理解できていない」とは、能力が低いという意味ではなく、現実との相互作用による検証（ループ）を持たないという構造的な制約 を指しています。

LLM → “観測された世界のモデル”
embodied → “行為を通じて更新される世界”

👉 「ループがあるほど賢い」ではない

👉 「ループがあると“現実への適応”が可能になる」

💡 直感的なイメージ

LLM → すでに出来上がった地図を読める人　（地図を自分で書き替えて更新しない）
RL → 実際に試しながら学ぶ人（試行錯誤しながら地図を書き換える）
ロボット → 現場で身体を使う人

👉 どれが賢いかは状況次第

（以下で頭を整理してスッキリ）

この「ループの有無」は、具体的には次のような違いとして現れます。

LLM：大量データからの推論（環境とは切り離されている）
強化学習エージェント：行動→観測→更新のループで改善
ロボット：センサと行動によるフィードバックで適応

同じ「AI」でも、前提となる構造が異なることがわかります。
繰り返しますが、どれが賢いかは状況次第です。

「7社目は宇宙でした」

番外編・後編——6ヶ月後、14体のAI Agentが出した経営戦略の比較デモ

前編のあらすじ：リームのベンチャーに世界的企業6社から精度検証の依頼が舞い込んだ。リルル先生は「時間スケール・不確実性の構造・意思決定の粒度」の3軸で各社に異なるAI Agentを割り当てた。製薬にMuZero、映像にSAC+ICM、石油にDecision Transformer、防衛にMADDPG+SNN、ホテルにReAct+Reflexion、アパレルにPPO+GNN。7社目は未定のまま——。

この話は、以下の話の続きです。

第1話 7社目の封筒

番外編・前編から3週間後。金曜日の研究室。

リームが封筒を持って現れた。いつもの上品な佇まいだが、封筒を持つ手がわずかに震えている。

リルル先生: 7社目？

リーム: はい。守秘義務契約に署名したので、お話しできます。

（封筒を開く。一枚の紙。全員の目が集まる）

リーム: 7社目は——民間宇宙開発企業です。宇宙輸送、衛星コンステレーション、火星移住計画を同時に推進している、世界で最も有名な宇宙企業。

（沈黙）

ユキ: ……宇宙。

カイト: えっ、マジですか。

リン: ……規模が違いすぎませんか。

リーム: 依頼内容は他の6社と同じです。全地球経営環境多様体のデジタルツイン上で、Disembodied AgentとEmbodied Agentの2体を動かし、最適な経営戦略プランを提示する。

リルル先生: （コーヒーを飲みながら、静かに）

……面白いことになったね。

第2話「軌道最適化と経営最適化は、同じ数学だ」

リルル先生: リーム、宇宙企業の経営環境の特性を整理して。

リーム: （ノートを開く）

7社目: 宇宙開発企業
  ・超長期の投資回収（火星計画: 10-20年）
  ・リアルタイムの判断（打ち上げ窓: 秒単位）
  ・行動の不可逆性（ロケットは打ち上げたら戻せない）
  ・環境が物理法則に厳密に支配されている
  ・通信遅延下での自律判断（火星: 片道4-24分）
  ・衛星コンステレーション（数千機の衛星群）の協調
  ・3事業の同時最適化（輸送・衛星・火星）

リルル先生: 未使用のアーキテクチャプールに何が残ってる？

カイト: えーと——

・Dreamer v3（単体）
・Gato（マルチモーダル統合）
・PaLM-E / RT-2（Foundation Model + Embodied）
・AlphaCode型（LLM生成 + RL評価フィルタ）
・Neural ODE + ポントリャーギンの最大原理

リルル先生: ……答えは一つだね。

リン: Neural ODE + ポントリャーギン。

リルル先生: なぜだか分かる？

リン: 宇宙船の軌道最適化は、連続時間の最適制御問題です。状態 $z(t)$（位置・速度）の時間発展を微分方程式で記述し、ポントリャーギンの最大原理で燃料消費を最小化する軌道を計算する。

リルル先生: そう。そして、うちのパイプラインのStep 8-9——Neural ODEで経営環境のダイナミクスを記述し、ポントリャーギンの最大原理で最適経営経路を計算する——は、宇宙船の軌道最適化と全く同じ数学だ。

ユキ: えっ、同じ？

リルル先生: 宇宙船の場合：

$$\frac{dz}{dt} = f(z, u), \quad z = (\text{位置}, \text{速度}), \quad u = \text{推力}$$

$$\text{minimize} \int_0^T |u(t)|^2 dt \quad \text{（燃料最小化）}$$

経営環境多様体の場合：

$$\frac{dz}{dt} = f_\theta(z, u), \quad z = \text{潜在状態}, \quad u = \text{政策}$$

$$\text{minimize} \int_0^T L(z(t), u(t)) dt \quad \text{（リスク最小化）}$$

リルル先生: 変数の意味が違うだけで、数学的構造は同一。ポントリャーギンの最大原理は、どちらにも同じように適用できる。

リーム: ……つまり、宇宙企業にうちのパイプラインの数学を提案することは、「経営の道具を宇宙に流用する」のではなく、もともと宇宙工学から生まれた道具を、経営に使ったのを、宇宙に戻すということ。

リルル先生: その通り。Zenn Book のパイプラインの数学的基盤——微分幾何、Neural ODE、最適制御——は全部、もとは物理学と宇宙工学の道具だった。それを社会経済データに適用したのが「ジオメトリック・インテリジェンス」。今度は宇宙企業の経営にそれを適用する。数学の普遍性が、ここで証明される。

リーム: Zenn Bookって、この２冊のことね？

ジオメトリック・インテリジェンス(1巻目)

ジオメトリック・インテリジェンス(2巻目)

リルル先生: そうそう！それよ。

第3話宇宙企業のAgent設計

リルル先生: 宇宙企業のAgentを設計しよう。

カイト: Disembodied側はNeural ODE + ポントリャーギン。Embodied側は？

リルル先生: PaLM-E型——GoogleのVision-Language-Action Model。

カイト: PaLM-Eって何でしたっけ？

リーム: PaLM-Eは、2023年にGoogleが発表したLLMにロボットのセンサー入力を直接統合したモデルです。テキスト・画像・ロボットの関節状態を全て同じトークン空間で処理し、「テーブルの上の赤い缶を取って」のような言語指示を、視覚情報と身体動作に変換して実行できます。

リルル先生: 宇宙企業のEmbodied Agentでは、PaLM-Eのアーキテクチャを経営環境多様体のデジタルツイン上に適用する。

【7社目：宇宙開発企業】

  Disembodied Agent: Neural ODE + ポントリャーギンの最大原理
    ・3事業（輸送・衛星・火星）の状態を
      連続時間の微分方程式で統合的に記述
    ・打ち上げ窓、軌道力学、投資配分を
      同一の最適制御フレームワークで最適化
    ・随伴方程式で「いつ・どの事業に・いくら投資すべきか」の
      最適タイミングを連続時間で算出
    ・MCドロップアウトで軌道の信頼区間を付与

  Embodied Agent: PaLM-E型 Vision-Language-Action
    ・宇宙環境デジタルツイン上に仮想身体を配置
    ・衛星コンステレーション（数千機）の各衛星に
      1体のサブAgentを配置（群体制御）
    ・通信遅延シミュレーション下での自律判断を
      身体経験として学習
    ・「見る」: 多様体上の曲率マップを視覚入力
    ・「考える」: LLMで経営判断を言語化
    ・「動く」: 多様体上の測地線に沿って移動し、
      政策ベクトル場に沿って環境に介入
    ・3つのモダリティ（視覚・言語・行動）を
      統一トークン空間で処理

リン: 待ってください。通信遅延のシミュレーションって、具体的にどうやるんですか？

リーム: 火星との通信遅延は片道4〜24分です。この間、地球側からの指示は届きません。つまり、火星側のAgentは通信遅延の間、完全に自律的に判断する必要がある。

デジタルツイン上でこれを再現するには、Embodied Agentの情報更新に人工的な遅延を入れます。多様体全体の最新スナップショットを受け取れるのは数分〜十数分おき。その間、Agentは最後に受け取った局所情報と、自分の世界モデルの予測だけで行動する。

リルル先生: これは実は、経営環境多様体の一般的な問題の極端なケースでもある。

カイト: どういう意味ですか？

リルル先生: 現実の経営でも、意思決定者は常に「最新の完全な情報」を持っているわけじゃない。情報が遅延し、不完全な状況で判断しなければならない。宇宙企業の通信遅延問題は、この「不完全情報下の意思決定」を極端な形で可視化したもの。

ここで学んだ「遅延下の自律判断」の設計パターンは、他の6社にも応用できる。

第4話 6ヶ月後——14体のAgentが動いた

（場面転換。6ヶ月後。リルル先生の研究室、ではなく、リームのベンチャー企業のオフィス。大型モニター6台が並ぶ会議室）

リーム: 先生、お越しいただきありがとうございます。

リルル先生: 全員来てるよ。

ユキ、カイト、リンも同席している。全員の目の前に、7社それぞれのデモが表示されている。

リーム: 6ヶ月の開発を経て、7社 × 2体 = 14体のAI Agentが、全地球経営環境多様体のデジタルツイン上で稼働しました。各社のDisembodied AgentとEmbodied Agentが提案する経営戦略プランを並べて比較した結果をお見せします。

第5話「身体を持つAgentと持たないAgentで、戦略が違う」

リーム: まず、7社全体の俯瞰的な結果です。

=== Disembodied vs Embodied 戦略一致度 ===

1. 製薬企業:         一致度 0.91 (高)
2. 映像制作会社:     一致度 0.62 (中) ← 乖離あり
3. 石油企業:         一致度 0.88 (高)
4. 防衛コングロマリット: 一致度 0.79 (やや高)
5. 高級リゾートホテル:  一致度 0.54 (低) ← 大きな乖離
6. アパレル企業:     一致度 0.85 (高)
7. 宇宙開発企業:     一致度 0.43 (最低) ← 最大の乖離

カイト: 一致度がバラバラですね。ホテルと宇宙が特に低い。

リルル先生: ……面白い。乖離が大きい企業と小さい企業で、何が違うか分かる？

リン: ……乖離が大きいのは、ホテル（0.54）と宇宙（0.43）と映像（0.62）。小さいのは、製薬（0.91）と石油（0.88）とアパレル（0.85）。

リルル先生: 何が共通してる？

（沈黙）

リーム: ……分かりました。乖離が大きい企業は、「暗黙知」や「身体的経験」が経営判断に大きく影響する業界です。

ホテルは接客の暗黙知。映像制作は観客の感性への直感。宇宙は物理環境との身体的インタラクション。

逆に、乖離が小さい企業は、経営判断が比較的「抽象的な数値」で記述できる業界。製薬は臨床試験データ。石油は価格と埋蔵量。アパレルは需要と在庫の数値。

リルル先生: つまり——Embodied Agentが「身体で歩いて」初めて発見できる知見は、数値だけでは表現できない暗黙知的な洞察だということ。

第6話宇宙企業——最大の乖離が意味すること

リーム: 最も乖離が大きかった宇宙企業の結果を詳しく見せます。

=== 7社目：宇宙開発企業 ===

【Disembodied Agent（Neural ODE + ポントリャーギン）の提案】
  最優先施策: 衛星コンステレーション事業の拡大
  投資配分: 衛星60% / 輸送30% / 火星10%
  論理: 随伴方程式の計算により、
        向こう5年間の期待リターン最大化経路は
        衛星事業への集中投資。
        火星事業は不確実性が高く、
        ポントリャーギン的には投資時期尚早。

【Embodied Agent（PaLM-E型）の提案】
  最優先施策: 火星事業の「インフラ先行投資」
  投資配分: 火星35% / 衛星40% / 輸送25%
  論理: 多様体上の火星関連領域を身体で探索した結果、
        曲率が急激に変化する「相転移点」を発見。
        この相転移点は、火星事業のコスト構造が
        非線形に改善する臨界点に対応。
        臨界点を超えるための先行投資を
        「今」始めないと、5年後の窓を逃す。

カイト: ……全然違う戦略が出てる。Disembodied は「衛星に集中しろ」、Embodied は「火星に今投資しろ」。

リルル先生: リーム、Embodied Agentが発見した「相転移点」について詳しく。

リーム: Embodied Agentは多様体上の火星関連領域を仮想身体で歩き回りました。その過程で、特定の座標付近で曲率が急激に符号を変える——正から負へ、あるいは負から正へ——領域を発見しました。

Disembodied Agentは多様体全体のスナップショットから曲率マップを「読む」だけなので、この急変域を「不安定領域」として回避対象に分類していました。

しかし、Embodied Agentはこの急変域の内部を身体で通過する経験を積みました。通過の前後で、多様体上の「地形」が質的に変わることを身体感覚として学習した。具体的には——

相転移点の手前: 火星事業のコスト関数が凸（投資増→コスト増）
相転移点の通過後: 火星事業のコスト関数が凹（投資増→コスト減）
→ スケールメリットの臨界点。ここを超えると
  再利用ロケット技術の学習曲線が急降下し、
  打ち上げコストが非線形に低下する。

リーム: Disembodied Agentにとって、この領域は「曲率が急変する危険な場所」でした。Embodied Agentにとっては、「通過すれば地形が一変する、チャンスの入口」でした。

リルル先生: ……これは重要な発見だ。

第7話「地図を読む人」と「山を歩く人」の違い

リルル先生: ユキ、3話目で言ったたとえを覚えてる？

ユキ: 「地図を読む人と、実際に山を歩く人の違い」。

リルル先生: Disembodied Agentは「地図を読む人」。曲率マップを見て「ここは急変域だから危険だ」と判断する。論理的には正しい。

Embodied Agentは「山を歩く人」。実際にその急変域を歩いてみたら、「ここは危険な崖じゃなくて、登り切れば絶景が広がる峠だった」と発見した。

リン: 地図には「標高が急変する等高線の密集地帯」としか書いてない。でも実際に歩くと、それが「崖」なのか「峠」なのかが分かる。

リルル先生: そう。地図の解像度では区別できない質的な違いを、身体経験が補完する。これがEmbodied AIの本質的な価値。

リーム: 宇宙企業のケースでは、この差分が戦略の根幹を変えました。Disembodied Agentの提案に従えば、火星への投資は5年間先送り。Embodied Agentの提案に従えば、今すぐ相転移点を超える先行投資を開始する。

リルル先生: どちらが正しいかは、この段階では分からない。しかし、2つの異なる視点を持つことで、意思決定者は「なぜ戦略が分かれるのか」を理解した上で判断できる。

リーム: はい。それが、各社に2体のAgentを提示する条件の本当の意味でした。

第8話 7社の比較総括

リーム: 7社全体の結果を総括します。

=== 7社の Embodied Agent 固有の発見 ===

1. 製薬（一致度0.91）:
   Embodied が追加発見: 特になし（数値的判断が支配的）
   → DisembodiedのMuZero木探索で十分

2. 映像制作（一致度0.62）:
   Embodied が追加発見: 多様体上の「未踏領域」に
   好奇心駆動で到達。新ジャンル（ドキュメンタリー×アニメ）
   の商業的ポテンシャルを身体的に発見。
   Disembodied は既存ジャンルの最適化に留まった。

3. 石油（一致度0.88）:
   Embodied が追加発見: 地政学的リスク領域の「質感」。
   不確実性が高い領域の「霧の濃さ」を身体的に知覚し、
   Disembodied よりも慎重な分散投資を提案。

4. 防衛（一致度0.79）:
   Embodied（群体）が追加発見: ドメイン間の「情報の流れ」に
   身体を置くことで、Sheaf Laplacianが検知する矛盾の
   「源泉」を特定。電子戦妨害の発生源を空間的に追跡。

5. ホテル（一致度0.54）:
   Embodied が追加発見: 「顧客満足度の曲率」の
   微妙な変化を接客体験の繰り返しから検知。
   Disembodied はレビューデータの分析に留まったが、
   Embodied は「言語化されていない不満」のパターンを
   身体的に発見。

6. アパレル（一致度0.85）:
   Embodied（群体）が追加発見: 
   店舗間の在庫移動の「摩擦」を身体的に感知。
   物流ネットワーク上のボトルネックを、
   GNNのグラフ構造だけでは見えない粒度で検出。

7. 宇宙（一致度0.43）:
   Embodied が追加発見: 火星事業のコスト構造の
   「相転移点」を身体的に発見。
   Disembodied が回避対象とした曲率急変域が、
   実は非線形コスト低下の臨界点だった。
   → 戦略の根幹が逆転。

リルル先生: パターンが見えるね。

リン: Embodied Agentが価値を発揮するのは、多様体上の局所的な質的変化を検出する場面です。曲率マップのような大域的な量では捉えきれない「地形の質感」を、身体で通過することで感知する。

リルル先生: そう。そしてその価値は、業界の意思決定がどれだけ「暗黙知」や「身体的経験」に依存しているかに比例する。

第9話「全ては信頼性の上に」

リルル先生: リーム、最後に確認。14体のAgent全てに、第2層の信頼性担保は入ってる？

リーム: はい。全Agentの出力に以下を適用しています。

【全14体に共通の第2層】
  ・MCドロップアウト: 全ての幾何量に95%信頼区間
  ・SHAP分解: 戦略提案の理由を元のビジネス変数で説明
  ・因果推論（DML）: 政策効果の交絡除去
  ・Disembodied vs Embodied の一致度: ロバスト性指標

リルル先生: 一致度が低い（0.43の宇宙企業など）場合、顧客にはどう報告する？

リーム: こう報告します。

「2つのAgentの戦略が大きく異なっています。これは、数値分析だけでは捉えられない質的な構造変化が存在する可能性を示唆しています。具体的には、火星事業のコスト構造に相転移点が存在し、身体的探索を行ったAgentのみがこれを検出しました。

最終判断は経営者に委ねますが、2つの視点の乖離そのものが、重要な経営情報です。乖離が小さい領域では安心して行動でき、乖離が大きい領域では追加調査を推奨します。」

リルル先生: 完璧。乖離を隠さずに報告する。これが「分かることと分からないことを分ける」原則の実践。

第10話エピローグ——研究室に戻って

（場面転換。翌週の金曜日。リルル先生の研究室。いつものテーブル）

ユキ: リームさんのオフィス、すごかったですね。モニター6台で世界中の企業のAgentが動いてて。

カイト: 7社目が宇宙企業だったのは衝撃でした。でも、Neural ODE + ポントリャーギンが「もともと宇宙工学の道具だった」って聞いたとき、すごく腑に落ちた。

リン: 私が一番印象に残ったのは、一致度のばらつきですね。Embodied Agentの価値が業界によって全然違う。数値で記述できる業界（製薬、石油、アパレル）では差が小さく、暗黙知的な業界（ホテル、映像、宇宙）では差が大きい。

リルル先生: これは、次のシリーズ（7〜12話）で掘り下げていくテーマにも繋がる。最適輸送、情報幾何、ポアンカレ埋め込み、シンプレクティック幾何、ワイル幾何——これらの「幾何学的拡張」は、Embodied Agentが発見した「数値では捉えきれない質的構造」を、数学的に記述するための道具になる可能性がある。

カイト: ……つまり、Embodied Agentが「身体で感じた」ことを、幾何学で「証明する」ということですか。

リルル先生: そう。身体が感じた相転移点を、シンプレクティック幾何の保存量の破れとして記述する。身体が感じた「霧の濃さ」を、情報幾何のFisher計量の退化として記述する。身体が感じた「未踏領域の面白さ」を、最適輸送のWasserstein距離で定量化する。

Embodied Agentの「直感」を、幾何学で「翻訳」する。 それが次のシリーズのテーマの一つになる。

ユキ: なんか、すごい壮大な話になってきた……。

リルル先生: 壮大だけど、やることは一歩ずつ。来週から7話目——「実データで動かしたら曲率マップが教科書と全然違った」。まずは地に足をつけて、実データとの格闘から始めよう。

リーム: 先生、7社への提案準備と並行して、研究室のセミナーにも参加させてください。幾何学的拡張の知見は、私の顧客企業への提案の質を直接上げます。

リルル先生: もちろん。

ユキ: おやつは？

リーム: ……すみません、今日はロンドンから直行便で来たので、何も……。

リルル先生: いいよ。今日はコンビニのシュークリームで。

ユキ: 日本のシュークリームもおいしいですよ、リームさん！

リーム: （微笑んで）……はい、知っています。

まとめ

論点	結論
7社目の宇宙企業	Neural ODE + ポントリャーギンが最適。軌道最適化と経営最適化は同じ数学
Embodied Agent	PaLM-E型。通信遅延下の自律判断を身体経験で学習
最大の発見	宇宙企業のEmbodied Agentが「相転移点」を身体で発見。Disembodiedが回避対象とした曲率急変域が、実はコスト低下の臨界点だった
一致度のパターン	暗黙知的な業界ほど、Disembodied と Embodied の乖離が大きい
乖離の意味	乖離そのものが重要な経営情報。2つの視点を並べることに価値がある
次シリーズとの接続	Embodied Agentの「直感」を幾何学で「翻訳」するのが7〜12話のテーマの一つ

全7社のAI Agent設計（完全版）

企業	Disembodied Agent	Embodied Agent	一致度
製薬	MuZero + モジュライ空間	Dreamer v3身体	0.91
映像制作	SAC + ICM	Habitat型身体	0.62
石油	Decision Transformer + MDN-RNN	確率的仮想身体	0.88
防衛	MADDPG + SNN	Isaac Gym群体	0.79
ホテル	ReAct + Reflexion + RAG	ALFRED型身体	0.54
アパレル	PPO + GNN	MADDPG群体	0.85
宇宙	Neural ODE + ポントリャーギン	PaLM-E型	0.43

次シリーズ予告： 番外編を終え、本シリーズ第7話へ。「先生、実データで動かしたら、曲率マップがシミュレーションと全然違ったんです」「どう違った？」「不安定領域が3倍に広がって、品質チェックが7項目中4項目で不合格でした」「……まず品質チェックが不合格の原因を1つずつ潰そう。そこからだ」—— 実データとの格闘編。コンビニのシュークリームからリスタート。

📚 Zenn Book『ジオメトリックインテリジェンス』について

本連載の出発点（起点）になったZenn Book『ジオメトリックインテリジェンス』は、以下をご参照ください。

カイトたちが言及している「経営環境多様体アプローチ」のより厳密な数学的定式化、およびVAEやNeural ODEを用いた全ステップのPython実装（約27万字）については、上記のZenn Bookに完全収録しています。

📖 著者のその他の専門書（層理論・Sheaf cohomologyを用いたデータ解析など）

これまでに出版した、層（Sheaf）理論を用いたITインフラ監視やビジネス制約のモデル化に関する専門書一覧です。

▶︎ 著者のZennマイページ（全著書一覧）はこちら

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

「“身体”を持つAI Agent vs 持たないAgent：なぜ世界を“正しく理解できない”のか？」

（重要な補足）

「7社目は宇宙でした」

第1話 7社目の封筒

第2話 「軌道最適化と経営最適化は、同じ数学だ」

第3話 宇宙企業のAgent設計

第4話 6ヶ月後——14体のAgentが動いた

第5話 「身体を持つAgentと持たないAgentで、戦略が違う」

第6話 宇宙企業——最大の乖離が意味すること

第7話 「地図を読む人」と「山を歩く人」の違い