1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

プロンプトから「遊べる世界」が生まれる——Project Genie と Genie 3 ワールドモデルを技術者の視点で読み解く

1
Posted at

「シカゴの吹雪」と打ち込むと、その場を歩き回れる3D世界が立ち上がる。テキストや画像から、リアルタイムで探索可能な環境が生まれる——そんな体験を可能にしているのが、Google DeepMind が2025年8月に発表した Project Genie と、その基盤となる Genie 3 ワールドモデルです。本記事では、IT技術者が押さえておきたい技術的な中身を、アーキテクチャ、リアルタイム実現のからくり、そして制限とトレードオフまで、一通り整理します。単なる画像・動画生成ではなく、自己回帰型ニューラルネットワークが動的にフレームを生成し、物理演算を学習モデルが担うという点が、従来の3Dエンジンとの決定的な違いです。

参照:note - Project Genie / Genie 3 解説


なぜ「ワールドモデル」が話題になっているのか

近年、LLM(大規模言語モデル)はテキストの理解と生成で大きな進歩を遂げました。一方で、AIが「環境を理解し、その中で将来を予測したり行動を計画したりする」ための技術として、ワールドモデルが改めて注目されています。ワールドモデルとは、環境の内部表現を構築し、将来の出来事を予測したり、行動を計画したりできるAIシステムのことを指します。従来のLLMが「テキスト理解」に特化していたのに対し、ワールドモデルは視覚的理解、物理予測、そしてユーザ操作に応じた動的シーンの生成といった能力を持ちます。技術的には、動的な環境の物理状態を学習し、それを仮想シミュレーション環境で再現するシステムだと言えます。

参照:note - ワールドモデルとはNVIDIA Glossary - World Models

ワールドモデルには複数の流儀があります。たとえば 「ルカンの新会社AMI Labsから見る2つのワールドモデル」 で触れたように、非生成的に抽象空間で予測するアプローチと、Genie のように「生成できる世界」を体験させるアプローチは、目指すところが異なります。Genie 3 は後者に位置し、テキストや画像から、インタラクティブに探索できる世界をリアルタイムで生成することを目標にしています。


Genie 3 の心臓部:3つのモジュールが織りなすループ

Genie 3 の技術的な核は、3つのコンポーネントが連携するアーキテクチャにあります。この構成は、ゲームエンジンが「入力→物理/描画→出力」のループを回すのと似た役割分担を、ニューラルネットワークで実現していると考えるとイメージしやすいです。

参照:X - Marcel Butucea 氏による Genie 3 アーキテクチャ解説

コンポーネント 機能 技術詳細
ビデオトークナイザー フレーム圧縮 Spatiotemporal VQ-VAE による離散トークン化
ダイナミクスモデル フレーム予測 自動回帰型Transformer(過去トークン + ユーザ操作 → 次フレーム)
潜在行動モデル(LAM) 操作エンコード ユーザ入力を圧縮した潜在ベクトルに変換

各時刻において、これまでのフレーム履歴(離散トークン列)と、いまのユーザ操作(LAMで潜在ベクトルに変換されたもの)とを入力に、ダイナミクスモデルが「次のフレーム」のトークンを予測します。そのトークン列をデコーダが画像フレームに戻し、画面に表示する。この一連の流れが毎フレーム繰り返されることで、ユーザが操作するたびに世界が更新されていく、という仕組みです。


自己回帰型フレーム生成——強みと代償

Genie 3 の最大の特徴は、**自己回帰型生成(Autoregressive Generation)**にあります。つまり、次のフレームは「それまでに生成されたすべてのフレーム」に依存して決まります。式で表すと、おおよそ「次フレーム = ダイナミクスモデル(過去フレームトークン列, ユーザ操作, プロンプト)」という関係になります。この性質により、物理的な一貫性が学習データから統計的に取り込まれ、水の流れや物体の落下といった現象を、明示的な物理式を書かずに再現できる可能性が開かれます。その半面、各フレームを出すたびに「過去全体」を参照する必要があるため、計算コストは時間とともに増大します。実際、訓練には数百個のTPU v5チップ、推論にも最低8個のTPU v5チップが必要とされており、このスケールがリアルタイム体験の土台になっています。

参照:X - 自己回帰型生成の説明LinkedIn - Google's Genie 3 解説


720p・24fpsを実現するための工夫

Project Genie のデモでは、解像度720p(HD)、フレームレート24fps、そしてインタラクティブな応答(遅延はおおむね100ms未満を想定)が目標とされています。ところが、自己回帰型では「フレームが進むほど参照する履歴が長くなる」ため、素朴に実装すると計算量がフレーム数 T に比例して増え、リアルタイムが難しくなります。Genie 3 はこの課題に対して、効率的なTransformer設計(必要な過去フレームに選択的に注意を向ける)、スライディングウィンドウで直近のフレームだけを高速に保持する方式、そしてTPUの並列化によって、1フレームあたりの処理時間をほぼ一定に保つ戦略を取っています。その結果、長時間プレイするほど履歴は長くなりますが、1フレーム生成あたりのコストはほぼ定数に抑えられている、というのが技術的なポイントです。

参照:LinkedIn - 計算量とリアルタイムMilvus - Genie 3 の違いと最適化


「同じ場所に戻っても同じ世界」——時間的一貫性と空間メモリ

ワールドモデルが体験として成立するには、「一度訪れた場所に戻ったとき、以前と同じような状態になっている」という一貫性が重要です。Genie 3 では、自己回帰型Transformerの注意機構を利用し、生成履歴全体に対して注意を払うことで、「この場所は数十フレーム前に見た」という情報を引き出し、一貫した環境を再現できるようにしています。Genie 2 では空間メモリが限定的だったのに対し、Genie 3 では拡張されたメモリ機構により、分単位の時間スケールで一貫性を維持できるとされています。

参照:genie3.cloud - メモリと一貫性X - 注意機構とメモリ


テキストだけじゃない——マルチモーダル入力の扱い方

Genie 3 は、テキストプロンプトだけでなく、画像スケッチや写真など、複数の入力形式を受け付けます。テキストはNLPと埋め込み層で、画像はCNNや特徴抽出で処理され、クロスアテンション機構によって異なるモーダルの情報が統合され、一つの表現にまとめられます。これにより、「シカゴの吹雪」のようなテキストだけでなく、簡単な下書きから世界を立ち上げたり、実写写真をベースにした環境を作ったりといった使い方が可能になっています。

参照:Remio - Genie 3 ワールドモデル解説

入力形式 処理方法 用途例
テキストプロンプト NLP + 埋め込み層 「シカゴの吹雪」
画像スケッチ CNN + 潜在空間投影 簡単な下書き → プレビュー
写真 特徴抽出 + 拡張 実写ベース世界
複合入力 クロスアテンション機構 テキスト + スケッチ融合

物理を「学習」する——従来エンジンとの違い

従来のゲームエンジンでは、重力や衝突は数式で明示的に書かれ、シミュレーションされます。Genie 3 では、数百万時間規模のビデオデータから、水の流れや物体の落下、光の反射といった物理現象を統計的に学習しています。そのため、「物理を明示的に定義しない」代わりに、多様なシーンに汎用的に対応できる半面、稀な現象や複雑な相互作用では不自然な振る舞いが出ることもあります。技術者としては、この「学習ベースの物理」と「従来型の決定論的シミュレーション」のトレードオフを理解しておくと、適用範囲や品質期待を設定しやすくなります。

参照:LinkedIn - 学習データと物理

要素 従来的ゲームエンジン Genie 3
物理演算 硬コード化された公式 ニューラルネットワークが学習
一般性 特定シーン向けにチューニング 多様な環境に汎用
計算方式 明示的PDE求解 統計的パターン学習
拡張性 新規物理を追加時に再実装必要 追加データで自動改善

ユーザが触れる3つの体験——World Sketching / Exploration / Remixing

Project Genie のUI機能は、技術的には「プロンプト→軽量プレビュー」「操作→オンデマンド生成」「既存世界の再解釈」の3本柱で整理できます。

World Sketching は、本格的な世界を生成する前に、軽量モデル(Nano Banana Pro など)で概略イメージを返す機能です。ユーザはプロンプトを試しながら、短いフィードバックループで「こんな世界になりそう」を確認できます。参照:note - World Sketching

World Exploration は、生成された世界をリアルタイムで歩き回る体験そのものです。ユーザのカメラ移動などの操作が潜在行動ベクトルに変換され、ダイナミクスモデルが次フレームを自己回帰的に生成し、描画する。この「操作→潜在ベクトル→次フレーム予測→描画」のループが毎フレーム回ることで、オンデマンドで前方の環境が生み出されていきます。参照:Google Blog - Project Genie

World Remixing は、既にできている世界の構造を保ったまま、プロンプトを変えて環境やキャラクターを差し替える機能です。Googleが公開するテンプレート世界を土台に、カスタマイズした世界を作るような使い方に相当します。


技術的制限をどう理解するか——グラフィックス、制御、セッション長

Genie 3 を業務やプロダクトで検討する際は、現時点の制限を押さえておくことが重要です。

グラフィックス忠実度では、物理の異常(重力が逆転する、オブジェクトが貫通するなど)や、テクスチャ・メッシュの不自然な変形が報告されています。原因としては、モデルが「統計的に最もらしい」フレームを出すため稀な現象が再現しづらいこと、およびVQ-VAEによる離散トークン化の情報損失が挙げられます。参照:note - 観察される問題

キャラクタ制御では、操作に対する反応の遅れや、意図と異なる動きが起こることがあります。LAMが高次元のユーザ入力を低次元の潜在ベクトルに圧縮する際の情報ロス、そして複雑なシーンでは参照すべき履歴が長くなりリソースが逼迫することが要因とされています。参照:note - キャラクタコントロール

セッション長は、現状おおむね60秒程度に制限されています。自己回帰型では時間が経つほど誤差が蓄積し、Transformerの注意が深い過去を正確に参照しづらくなる「drift」が避けられません。予測誤差がステップ数 T に対して指数的に増大するトレードオフのなかで、60秒(1,440フレーム程度)が現時点のバランスポイントと考えられます。参照:note - セッション長制限


訓練と推論に必要なリソース

Genie 3 の訓練には数百万時間規模のビデオが用いられ、現実風景、ファンタジー、アニメ、歴史的シーンなど多様なデータから、物理ルールや空間配置、オブジェクトの相互作用が統計的に学習されます。計算リソースの目安としては、訓練にTPU v5を数百個、推論に最低8個のTPU v5が必要とされ、プレビュー用の軽量モデルでは単一TPU程度で動く構成も想定されています。モデル規模の大きさと、自己回帰生成が本質的に順序依存であることが、このスケールの要因です。

参照:LinkedIn - 計算リソース

フェーズ ハードウェア 規模
訓練 TPU v5 数百個
推論 TPU v5 最低8個
プレビュー(Nano Banana) より小規模モデル 単一TPU程度

どこで使われ、どこへ向かうか——応用と競合

現在の Project Genie の用途としては、ゲームプロトタイピングや映像・アニメ制作といったクリエイティブ領域、災害対応シミュレーションや歴史環境の探索といった教育・訓練、そして自動運転シミュレータやロボット動作計画用の仮想環境といったロボティクス・自動運転が挙げられています。Googleの発表では、セッション時間の延長(60秒から数分以上)、天候変化やオブジェクト挿入などより細かい世界操作、および物理精度の向上が今後の方向性として示されています。

競合としては、2025年後半に Runway が発表した GWM-1 などのワールドモデルが知られており、この分野の競争は今後さらに激しくなると予想されます。参照:note - 競合技術

従来のゲームエンジン(Unreal Engine / Unity)との比較では、Genie 3 は「プロンプトから短時間で世界が立ち上がる」「多様なシーンに汎用的に対応しうる」一方で、物理精度やカスタマイズ性、リアルタイム性能(24fps@720p vs 60–120fps@1080p+)では従来エンジンに及ばない部分があります。用途に応じて「プロトタイプやアイデア出しはGenie、最終品質は従来エンジン」のように住み分けを考えるとよいでしょう。

観点 Genie 3 Unreal Engine / Unity
開発速度 プロンプト → 世界(秒) 手作業設計(週単位)
物理精度 統計的(場合により不正確) 数値シミュレーション
カスタマイズ性 限定的 高度
リアルタイム性 24fps@720p 60–120fps@1080p+
適用範囲 汎用・多様性志向 特定ジャンル最適化

セキュリティと倫理——技術者が考慮すべき点

実務で Genie 3 や類似のワールドモデルを検討する際は、次の点に留意するとよいでしょう。第一に、推論にTPUを複数必要とするなど計算リソースが集中しており、Googleのインフラ以外では実用的な運用が難しい可能性があります。第二に、訓練データに含まれる著作権コンテンツの扱いが、生成物の利用可否やガバナンスに影響します。第三に、ロボティクスや自動運転のようにシミュレーション結果を現実の判断に使う場合は、仮想環境の精度限界を認識し、実機や実データでの検証を組み合わせることが重要です。


なぜ技術者が Genie 3 を押さえておく価値があるか

Project Genie / Genie 3 は、生成AIが「テキストや画像を出すツール」から、ユーザと相互作用する環境シミュレーションへ進化した一例を示しています。技術的には、自己回帰型Transformerによるフレーム生成、学習ベースの物理、マルチモーダル融合が組み合わさったシステムです。60秒制限やグラフィックス・制御の品質は、自己回帰の計算トレードオフと訓練データの統計性に根ざしており、今後改善されていく可能性はありますが、「完全な物理精度」を求めるより、「多様で十分にリアルな環境を素早く立ち上げる」価値を理解しておくことが実務では役立ちます。

AGIへの道筋として、AIが「推論エンジン」から「シミュレーション・理解システム」へ向かううえで、ワールドモデルは重要な役割を果たすとされています。また、モデル規模の拡大に伴い物理的一貫性が自然に良くなる「創発」的な振る舞いも報告されており、YouTube - Emergent 物理学習 などで議論されています。IT技術者としては、ゲーム・ロボティクス・教育など新しいアプリケーション層の基盤として可能性を理解しつつ、計算要件と精度限界を踏まえた上で活用を検討するのがよいでしょう。

画像やドキュメントを「能動的に調査する」AIについては、「Google Gemini 3 Flash の Agentic Vision が変える画像AIの常識」 で別途解説しています。ビジョンとワールドモデルは役割が異なりますが、いずれも「理解と生成の境界」を広げる技術として並行して押さえておく価値があります。


技術用語の整理

用語 定義
Autoregressive Generation 前フレームに依存して次フレームを逐次生成する手法
Spatiotemporal VQ-VAE 動画フレームを時空間的に圧縮し、離散トークンに変換する技術
Transformer 自己注意機構を用いたニューラルネットワークアーキテクチャ
Latent Action Model (LAM) ユーザ操作を圧縮ベクトル(潜在空間)に変換するモデル
Cross-attention 異なるモーダル(テキスト、画像など)の情報を融合するメカニズム
Temporal Consistency 時系列を通じた出力の矛盾なさ

まとめ

Project Genie と Genie 3 は、テキストや画像からリアルタイムで探索可能な3D世界を生成するワールドモデルです。ビデオトークナイザー、ダイナミクスモデル、潜在行動モデル(LAM)の3要素がゲームエンジン的なループを形成し、自己回帰型でフレームを逐次生成することで、物理を明示的にプログラミングせずに多様な環境を再現しています。720p・24fpsでのインタラクティブ体験は、Transformerの最適化とスライディングウィンドウ、TPU並列によって実現されており、一方でグラフィックス品質、キャラクタ制御、セッション長(約60秒)には現時点の制限があります。IT技術者としては、新しいアプリケーション層の土台として可能性を理解し、計算リソースと精度のトレードオフを踏まえた上で、プロトタイプやシミュレーション用途から検討を始めるのが現実的です。


作成日:2026年1月31日

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?