この記事では、自動運転向けの実世界の世界モデルであるGAIA-1(Generative Artificial Intelligence for Autonomy)を紹介します。
参考文献
この記事は以下の情報を参考にして執筆しました。
-
Introducing GAIA-1: A Cutting-Edge Generative AI Model for Autonomy
-
GAIA-1:自動運転向けの実世界の世界モデル, 日経Robotics, 2023年8月号
また,CVPR2023のワークショップ(End-to-End Autonomous Driving)でのGAIA-1の発表動画も公開されています。
GAIA-1とは?
GAIA-1は,自動運転を開発するWayve Technologies社(英国)が2023年6月に発表した「自動運転に特化して設計された最先端のマルチモーダルな生成AIモデル」です。GAIA-1は、動画、テキスト、運転者の行動をプロンプトとして受け取り、それらに基づいて未来のリアルな動画と行動を生成します。
世界モデルとは?
GAIA-1は、世界モデルを基盤としています。
人間や他の動物は、幼い頃から観察や相互作用を通じて世界(環境)をモデリングします。世界に関する知識の蓄積に基づいた世界モデルによって、私たちは未知の環境でも効果的に行動できるようになります。
世界モデルは、次に何が起こるかを予測する能力の基盤です。世界モデルは、モデルベース強化学習(RL)やプランニングのためのシミュレータとして機能します。既存のシミュレータは事前知識に基づいて設計・作成されるのに対して、世界モデルは観測データに基づいた学習によって獲得されます。
世界モデルは、自動運転にとって非常に重要です。世界モデルを組み込むことによって、運転モデルが人間の意思決定をより良く理解できるようになり、より現実的な状況に汎化できるようになります。
GAIA-1のアーキテクチャ
GAIA-1では、入力プロンプトを離散トークンにマッピングし、シーケンス内の次のトークンを予測することで、世界モデルのモデリングを教師なしシーケンス・モデリング問題として定式化しています。
GAIA-1は、2つのパーツ
- 世界モデル
- 映像拡散デコーダー
から構成されています(下図参照)。世界モデルは、シーンの構造とダイナミクスについての潜在表現を生成します。映像拡散デコーダーは、潜在表現をリアルで高品質な映像に変換します。
出典:GAIA-1
GAIA-1は、膨大な英国都市部の実走行データで動画内の後続フレームを予測することを学習し、ラベルを必要としない自己回帰(AR)予測を実現しています。これは大規模言語モデル(LLM)に見られるアプローチと同様です。
GAIA-1の能力
- 長期の尤もらしい未来の予測
GAIA-1は、数秒間のビデオプロンプトから数分先までの未来を予測することができます。数分先の映像では、最初の数秒間の映像に存在しないシーンが予測されています(下図参照)。これは、GAIA-1が現実世界の構造とダイナミクスを理解・再現する能力を有していることを示しています。
出典:GAIA-1
- 複数の尤もらしい未来の予測
GAIA-1は、複数の可能性のある未来を予測することができます。例えば同じビデオプロンプトから、交差点で左折する(下図左上)、そのまま直進する(下図右上)、別の想像上の道路に沿って直進する(下図左下)、歩行者が前方の道路を横断する(下図右下)場面の映像をそれぞれ予測することができます。これは、GAIA-1が未来にさまざまなことが起こり得ることを想像する能力を有していることを示しています。
出典:YouTube
- 自車両の挙動と運転シーンのきめ細かな制御
GAIA-1は、テキストプロンプトのみからシーンを想像して映像を生成することができます。テキストプロンプトとして「周囲にバスがたんさんある場合」、「夜間で自車のヘッドライトをつけた場合」の例をそれぞれ下図に示します。
周囲にバスがたんさんある場合 | 夜間で自車のヘッドライトをつけた場合 |
---|---|
出典:YouTube | 出典:YouTube |
- 汎化性・創造性
真の世界モデルとして、GAIA-1は訓練したことのないシナリオで何が起こるかを想像することができます。下図は、テキストとアクションのプロンプト入力に基づいて,自車両が左右にステアリングを切って車線から逸脱する場面を生成した映像の一部を示しています。学習したシナリオにはない運転シーンを予測できることは、学習したデータから外挿する能力(汎化性・創造性)をGAIA-1が有していることを示しています。
出典:YouTube
- スケーリング
GAIA-1では、世界モデルのモデリングを教師なしシーケンス・モデリングとして定式化することで、大規模言語モデルと同様のスケーリング傾向が世界モデルにも得られることを示しています。
おわりに
GAIA-1は、自動運転分野における画期的な生成AIモデル(世界モデル)です。
リアルで多様な運転シーンを生成する能力を持つGAIA-1の登場によって、今後、自動運転やロボティクスなどの分野で世界モデルの利用が急速に広がると考えられます。
GAIA-1の登場によって、自動運転システムのトレーニングを強化するユニークな機会が提供され、複雑な実世界シナリオをより効果的にナビゲートできるようなシステムの実現が期待されます。