はじめに
Google DeepMind が配信している「Genie 3: An infinite world model | Shlomi Fruchter and Jack Parker-Holder」を聞きました。Genie 3 について話している内容なのですが、このブログを書こうと思ったきっかけになったものです。
Genie 3 を初めて知ってたとき、まるでゲームの世界へ自由に入れるみたいで「すごい、これからの進化が楽しみ!」と思いました。
じつは内容も含めて理解するために 5 回は繰り返して見ました。。。良いリスニングの勉強にもなった素晴らしい経験です。
1 時間とちょっとボリューミーですが Genie 3 についてディープに知れる内容となっていますのでぜひ見てみてください!
Genie 3 って何?
Genie 3 は Google DeepMind によって開発された、汎用的なワールドモデルです。テキストプロンプトに基づき、前例のない多様性を持つインタラクティブな世界をリアルタイムで生成できます。
これは、基礎となるゲームエンジンやコードに依存せず、ユーザーの入力と過去の履歴に反応してすべてのピクセルを予測する自己回帰的なニューラルネットワークとなってます。Genie 3は720pの解像度で24フレーム/秒(fps)の速度で動作し、生成された世界は数分間にわたって高い一貫性を保持します。
このモデルの主要な役割は、AIエージェントの訓練のための動的な世界シミュレーションを構築することであり、AGI(汎用人工知能)への重要な足がかりと見なされています。これにより、エージェントは複雑な目標達成のための長いアクションシーケンスを実行することが可能になります。
実際どういうものなの?
なんと公式サイトで見ることができます!
指定されたプロンプトを入れると映像の世界で動いていく、指定するとものが変わる感じがすごいと思いました!すごい、リアルだ!映像が変わっていくと。ゲームみたいだと。
同じような場所に行ったことあるのですが、思い出して、リアルさがより迫ってきました。
今回思い立ったPodcastについて
以下、内容になります!
1. Genie 3の定義と技術的特徴
Genie 3は、以下のような特徴を持つリアルタイムの対話型ワールドモデルです。
- 定義: テキストプロンプトから、視覚的に面白く多様な世界を作り出すことができます。
- 基礎技術: 基盤となるゲームエンジンやコードは存在せず、ユーザーからの入力や過去の履歴に反応して、すべてのピクセルを予測しているニューラルネットワークです。
- Veoとの根本的な違い: Veoのようなビデオモデルは、指定された長さ(例:8秒)の動画全体を最初から最後まで生成し、後からカメラの動きを変えたり、探索範囲を広げたりすることはできません。一方、Genie 3は、ユーザーの動きやアクションに応じて自己回帰的に次のフレームを予測し続けるため、時間は一方方向に進み、過去は固定されます。
- 一貫性: ユーザーが向きを変えて元に戻ったとき、世界はそのままの状態を保ちます。この記憶力と一貫性は、明示的な3D表現に頼るのではなく、過去の軌跡を記憶し次のフレームを予測するという単純なタスクから創発的に学習された能力です。
2. 主な機能と実演例
- 多様なプロンプト入力: テキストプロンプトだけでなく、エドワード・ホッパーの絵画『ナイトホークス』のような画像や絵画からも世界を生成し、その絵の中を歩き回ることができます。このとき、元絵に描かれていない裏側や周囲の様子も一貫して生成されます。
- 物理の創発的な理解: 水しぶき(ジェットスキーの例)や重力(崖から車が落ちる例)、煙の流れなど、訓練データから学習した創発的な特性として物理現象の一部を理解し、シミュレートします。
- プロンプト可能なワールドイベント: リアルタイムで対話中に、テキスト入力によって世界にイベントを「注入」できます(例:風船を飛ばす、キャラクターを登場させる)。
3. AGIとAI研究における役割
Genie 3は、AI研究におけるAGI(汎用人工知能)への重要なツールとして位置づけられています。
- AGIへの基盤: Genie 3のようなワールドモデルは、世界をシミュレートする能力がないと、身体性を持つAGI(Embodied AGI)はあらゆるシナリオで動作できないという考えに基づいています。Genie 3は、世界を計画・推論できるマシンの基盤となります。
- エージェント訓練: 費用や危険を伴う現実世界ではなく、Genie 3が生成したシミュレーション環境で、SIMAエージェントのようなAIエージェントを訓練できます。これにより、エージェントは目標達成のために行動を試し、失敗から学ぶことが可能になります。
- 計画と堅牢性のテスト: エージェントはシミュレーション内で「ロールアウト」を行い、次の行動を決定するための計画に使用できます。また、現実世界では稀なシナリオ(例:ハロウィーンの子供たち)をシミュレートし、エージェントが予測不可能な状況でも安全に、かつ適切に対応できるか堅牢性をテストできます。
- 教育・娯楽への応用: 教科書を読む代わりに、学生が仮想のビクトリア朝イングランドに「足を踏み入れる」など、歴史的な設定や、遠隔地の視点(例:ジャガーやサメの視点)を体験することで、特に視覚的な学習者を惹きつけることができます。
4. 課題と将来の展望
- シム・トゥ・リアル・ギャップ: シミュレーションと現実世界の間にはまだギャップがありますが、Genie 3はフォトリアリスティックな環境を提供することでその差を縮めています。
- 安全性と責任: オープンエンドな機能は、暴力的なシナリオや好ましくない歴史的設定など、安全上の懸念をもたらします。そのため、早期アクセスは制限され、フィードバックが収集されています。
- 今後の目標: 言語モデルが言語に対して行ったことと同様に、Genie 3をシミュレーション世界のための新しい種類の「基盤モデル」にすることが目標です。将来的に、人間とのより良い協調のために、物理学だけでなく、人間の思考や相互作用を理解できるソーシャルなエージェントの開発を目指しています。
終わりに
いかがでしょうか!
哲学的な内容も含めて Genie 3 が知れたかと思います。早くさわれる日が来るといいですよね!!!
ここまで読んでいただいた方にとってプラスの内容になっていれば嬉しいです。


