NVIDIA Cosmos 3：動画生成AIから「動けるAI」へ進むWorld Model

Posted at 2026-06-06

NVIDIAが公開した Cosmos 3 は、ロボットや自動運転などの「Physical AI」向けに作られた新しいWorld Foundation Modelです。

一言でいうと、Cosmos 3は単なる動画生成モデルではありません。

テキスト、画像、動画、音声、そしてロボットの行動データをまとめて扱い、

世界を理解する
次に何が起こるかを予測する
どう動くべきかを考える

ところまでを1つのモデル群で扱うことを狙っています。

NVIDIA Researchは、Cosmos 3を「text, images, video, audio, and actionsを横断するomnimodal world model」と説明しています。つまり、マルチモーダルよりさらに一歩進めて、物理世界の理解・生成・シミュレーション・行動を同じ枠組みに載せようとしているモデルです。

参考: NVIDIA Cosmos 3 Research

画像を見るだけのAIから、世界を予測するAIへ

これまでのAIモデルは、用途ごとに分かれていることが多くありました。

画像を理解するモデル、動画を生成するモデル、ロボットの行動を予測するモデル、自動運転のシミュレーション用モデル、という具合です。

Cosmos 3が面白いのは、これらを別々のモデルとして扱うのではなく、物理世界を扱うための共通基盤としてまとめようとしている点です。

たとえば、次のような入力と出力を扱えます。

入力	出力	用途
テキスト	画像	物理的にもっともらしい画像生成
テキスト + 画像	動画	画像から未来の動きを予測
テキスト + 動画	テキスト	動画の状況理解・推論
アクション + 動画 + テキスト	動画	行動条件付きの世界シミュレーション
動画 + テキスト	アクション	ロボットやエージェントの行動予測

つまり、Cosmos 3は「動画を作るAI」ではなく、見た世界を理解し、未来を予測し、行動につなげるAIとして設計されています。

参考: NVIDIA Developer Blog

1つのモデルで理解・生成・行動をつなぐ仕組み

Cosmos 3は Mixture-of-Transformers、MoT という構成を採用しています。

Hugging Faceのモデルカードによると、Cosmos 3は大きく2つのTransformerを組み合わせています。

Autoregressive Transformer
テキストのような離散的なトークンを生成するためのTransformer
Diffusion Transformer
画像、動画、音声、アクションのような連続的・高次元なデータを生成するためのTransformer

テキスト生成は通常の次トークン予測に近い方法で行い、画像や動画、音声、アクションは拡散モデル的なdenoisingによって生成します。

この構成により、同じモデルが以下のような役割を切り替えられます。

Vision-Language Model
Video Generator
World Simulator
Forward Dynamics Model
Inverse Dynamics Model
Robot Policy Model

ここがCosmos 3の中核です。単に入力形式が多いだけではなく、理解、生成、予測、行動を同じ世界表現の上で扱おうとしています。

参考: Cosmos3-Super model card

ワークステーション向けNanoとデータセンター向けSuper

Cosmos 3は、用途に応じて主に2つのサイズで公開されています。

モデル	構成	用途
Cosmos 3 Nano	16B total、8B reasoner + 8B generator	ワークステーション向け
Cosmos 3 Super	64B total、32B reasoner + 32B generator	データセンター・大規模研究向け

NanoはRTX PRO 6000のようなワークステーション級GPUでの利用を想定し、SuperはHopperやBlackwell世代のデータセンターGPU向けです。

ここで少しややこしいのは、reasonerとgeneratorを分けて見るとNanoは8B + 8B、Superは32B + 32Bという構成になっている点です。公開モデル全体としては、Nanoが16B、Superが64Bと整理すると理解しやすいです。

参考: Hugging Face blog

Hugging Face Diffusersで試せるのが大きい

開発者にとって重要なのは、Cosmos 3がHugging Face Diffusersに統合されていることです。

たとえば、Text-to-ImageやText-to-Videoは Cosmos3OmniPipeline から利用できます。

import torch
from diffusers import Cosmos3OmniPipeline

pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Nano",
    torch_dtype=torch.bfloat16,
    device_map="cuda",
)

result = pipe(
    prompt="A robotic arm carefully picks up a red block on a workbench.",
    num_frames=1,
    height=720,
    width=1280,
)

Diffusersのドキュメントでは、Text-to-Image、Text-to-Video、Image-to-Video、音声付き動画生成などの例が公開されています。

参考: Diffusers Cosmos 3 docs

モデルだけでなく、学習後の調整材料も公開

Cosmos 3の公開で重要なのは、モデル重みだけではありません。

NVIDIAは、Cosmos 3のポストトレーニング用コードや設定、合成データセットも公開しています。

NVIDIA Developer Blogによると、公開された合成データセットは 6種類 で、対象は以下のような領域です。

ロボティクス
物理シミュレーション
空間推論
人間の動作
自動運転
倉庫環境

また、ポストトレーニングでは、特定ドメインの動画生成だけでなく、ロボット向けの行動学習にも使えるようになっています。

たとえば、観測された動画から「どんな行動が行われたか」を推定したり、現在の観測と指示から次の行動列を予測したりできます。

ロボットや自動運転でWorld Modelが必要になる理由

Cosmos 3の意義は、生成AIを「画面の中のコンテンツ生成」から「現実世界で動くAI」へ広げるところにあります。

ロボットや自動運転では、現実環境で試行錯誤するコストが非常に高くなります。危険な状況やレアケースを実世界で大量に集めるのも難しいです。

そこで、World Modelが必要になります。

Cosmos 3のようなモデルが進むと、次のような開発がしやすくなります。

自動運転の危険シーンを合成して学習データにする
ロボットが行動した後の未来の観測を予測する
倉庫や工場での作業シナリオをシミュレーションする
動画から物理的な状況を理解し、次の行動を推論する

要するに、AIが「画像を見て答える」だけでなく、世界の変化を予測し、その中でどう動くかを考える方向へ進んでいるということです。

Cosmos 3が示すPhysical AIの次の方向

Cosmos 3は、NVIDIAがPhysical AI向けに公開したomnimodal world modelです。

ポイントは以下です。

テキスト、画像、動画、音声、アクションを扱える
Mixture-of-Transformers構成で理解・生成・行動を統合
Nanoは16B、Superは64Bとして公開
Hugging Face Diffusersから利用可能
ポストトレーニングコードと合成データセットも公開
ロボット、自動運転、倉庫、スマートスペースなどに応用可能

生成AIの次の大きな流れは、テキストや画像の生成だけではなく、現実世界をシミュレーションし、行動につなげるPhysical AIです。

Cosmos 3は、そのための基盤モデルとして注目すべきリリースです。

作成日: 2026年6月2日

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up