ヒトの4.4万時間から学ぶ世界モデル「DreamDojo」：ロボット学習の新境地

Posted at 2026-02-25

ヒトの動きを見て学び、ロボットの「知能」を劇的に進化させる――。
そんなSFのような話を現実にする最新の研究**「DreamDojo」**について、背景から技術的な核心、そしてその意義までを徹底解説します。

ロボットに複雑な作業を教えるとき、最大の壁となるのは**「データの不足」**です。この課題を、私たちの日常生活を映した膨大なビデオデータで解決しようとする野心的なプロジェクトが始動しました。

1. 背景：なぜロボットのデータだけでは足りないのか？

現在、ロボットの学習において主流なのは、ロボットを実際に動かしてデータを集める手法です。しかし、これには大きな弱点があります。

一方、YouTubeやクラウドソーシングに溢れる**「ヒトの一人称（主観）動画」**は、宝の山です。私たちは日常的に何千もの物体を触り、操作しています。この膨大な「ヒトの経験」をロボットに転移できれば、学習効率は飛躍的に向上します。

DreamDojoは、約44,000時間ものヒトの一人称動画から、世界の物理法則や物体の動きを学習する**「世界モデル（World Model）」**です。

このモデルの特徴は、単に動画を見るだけでなく、**「ある状況でどう動けば、世界がどう変化するか」**を予測できる点にあります。

DreamDojoは、以下の3種類のデータを統合して学習されています。

データセット	時間	特徴
In-labデータ	少量	研究室で取得した高精度な手姿勢データ
EgoDex	829時間	Apple Vision Proを用いて収集された高品質な主観動画
DreamDojo-HV	約44,000時間	クラウドソーシングで集められた膨大な日常動作動画

これらを合わせることで、1万のシーン、6,000のタスク、43,000もの物体という、前例のない規模の知識をモデルに叩き込んでいます。

ヒトの動画には、「今、右手を3センチ動かした」といった具体的な**行動ラベル（Action Label）**が付いていません。これが、動画からロボットの制御を学ぶ際の最大の障害でした。

DreamDojoはこの問題を、**「潜在行動」**という概念で解決しました。

VAE（変分オートエンコーダ）の活用:
連続する2つのフレーム（現在の画像と次の画像）をVAEに入力し、その間の「変化」を低次元のベクトルに圧縮します。
自己教師あり学習:
モデルは「現在の画像」と、この「潜在行動ベクトル」から「次の画像」を予測するように訓練されます。これにより、明示的なラベルがなくても、画像間の変化の中に含まれる「意味のある動作情報」を自動的に抽出できるようになります。

従来の動画生成モデルは、1コマずつの正確さを重視するあまり、連続した動きの滑らかさ（時間的な整合性）を欠くことがありました。DreamDojoでは、隣接するフレーム間での「動きの流れ（フロー）」が論理的に一致しているかを評価する損失関数を追加し、より物理的に自然な動画予測を可能にしました。

DreamDojoの基盤には、NVIDIAが発表したCosmos-Predict 2.5が採用されています。これは、テキストや過去のフレームを条件に未来を予測する強力な潜在拡散モデル（Latent Diffusion Model）です。

しかし、拡散モデルは生成に時間がかかるため、ロボットのリアルタイム制御には向きません。そこで研究チームは以下の工夫を凝らしました。

Self-Forcingに基づく蒸留:
学習済みの重いモデルから、軽量で高速なモデルへと知識を移転（蒸留）しました。
リアルタイム推論:
その結果、640×480の高解像度でありながら、毎秒10フレーム（10 FPS）以上という速度で未来を予測することが可能になりました。

DreamDojoの凄さは、単にきれいな動画を作るだけでなく、それが「現実のシミュレーション」として機能する点にあります。

現実との高い相関:
DreamDojo内でのタスク成功率と、実世界のロボットでの成功率を比較したところ、極めて高い相関が見られました。つまり、**「DreamDojoの中で成功する動きは、現実でも成功する」**と言えるのです。
行動選択による性能向上:
ロボットが動く前に、DreamDojoを使って複数の未来をシミュレーションし、最も成功しそうな動きを選択させたところ、成功率が最大で17%向上しました。

DreamDojoの登場は、ロボット工学における「スケーリング則（データの量を増やせば増やすほど賢くなる法則）」が、ビデオデータにおいても成立することを示唆しています。

「ロボットに教えるために、ロボットを動かす必要がなくなるかもしれない」

これは、データ収集コストを劇的に下げると同時に、これまでロボットが苦手としてきた「未知の環境」や「複雑な物体の操作」への対応能力（分布外性能）を大きく引き上げる可能性を秘めています。

ロボットがヒトの膨大なアーカイブから「世界の理（ことわり）」を学び、私たちの日常をサポートする日は、すぐそこまで来ているのかもしれません。