「実世界で現実的に集められる量を超えた写実的な訓練データが必要だ」──Amazonの倉庫で動くヒューマノイド「Digit」を開発するAgility Roboticsは、自社の課題をこう表現する。ロボットを賢くするには動作データが要るが、現実で集めるには時間も金も安全コストもかかる。NVIDIAが2025年初頭に公開した世界基盤モデル「Cosmos」は、この問題を仮想空間でのデータ生成に置き換えた技術だ。公開から約1年で500万ダウンロードを突破し、フィジカルAIの中核として製造・自動運転・ヒューマノイドの本番ラインに入り始めている。本記事ではNVIDIA Cosmosの仕組み、海外4社の実装、そこから派生するプロダクトアイデアを整理する。
「実機で集めるしかなかった」が変わる──ロボット訓練の根本問題
AIで動くロボットを訓練するには大量の行動データが要る。しかし現実のデータ収集には、時間・コスト・安全性の3つの壁がある。工場のロボットアームに荷物の積み替えを教えるには、実機を動かしながら失敗と成功を何千回も繰り返す必要がある。まだ存在しない製品ラインや、人が立ち入れない危険な環境では、そもそもデータが集められない。
既存のシミュレーターも部分的な解決策にはなってきたが、「シミュレーションと現実の差(sim-to-real gap)」という根深い問題がある。シミュレーションで95%の成功率を達成したロボットを、物理的な環境に移すと30〜60%程度まで下がることが多い。光の反射・材質ごとに異なる摩擦・センサーのノイズ──これらをリアルに再現できるシミュレーターが限られていたからだ。
フィジカルAIとは:ソフトの賢さが「物理の世界」に出てくる
フィジカルAI(Physical AI)とは、物理世界で動くロボット・自動運転車・産業機器に知性を持たせる領域を指す。チャットボットや画像生成のように画面の中で完結するAIではなく、物体に触れ、人と並び、現実の物理法則の中で意思決定する点が決定的に違う。失敗が安全事故に直結するため、訓練データの質と量がそのまま成果を左右する。
NVIDIAのCEOジェンスン・フアン(Jensen Huang)はGTC 2026の基調講演でこう語った。「Physical AI has arrived. Every industrial company will become a robotics company」。NVIDIAが描く解決策は、シミュレーターを単純に「改良する」ことではなく「データ問題をコンピュート問題に変える」こと──実機での試行錯誤に費やしてきた時間と費用を、GPUの計算量に置き換える方向だ。その中核として開発されたのがCosmos World Foundation Models(以下Cosmos)だ。
NVIDIA Cosmosとは:物理法則を動画で学んだ世界基盤モデル
NVIDIA Cosmosは、物理世界の映像から「次に何が起きるか」を予測することを学習した世界基盤モデル(World Foundation Model、WFM)だ。テキスト生成AIが自然言語を学ぶのと同じように、WFMは現実世界の動画を大量に学習して、物理的な動きのパターンを内部に持つ。
Cosmosは、自動運転・ロボティクス・産業環境などから集めた2,000万時間・9,000兆トークン相当の映像で事前学習されている。この処理をNVIDIA Hopper GPU(H100世代)で行うと40日かかる量だ。最新のBlackwell世代なら14日。ところが従来のCPU中心のパイプラインで同じ量を処理しようとすると3年以上かかる計算になる。「データを実世界で集める」コストを、文字通りGPUの計算コストに置き換えた構図がここに現れている。
モデルアーキテクチャはTransformerをベースにしており、拡散モデル(diffusion)と自己回帰モデル(autoregressive)の2系統が提供されている。いずれも「物理的にありえない動き」が出にくい設計を意識しており、産業用途への適合度を高めている。ライセンスはApache 2.0とNVIDIA Open Model Licenseが組み合わされ、商用利用も可能だ。
Predict・Transfer・Reason──3つのモデルが連携するロボット訓練パイプライン
Cosmosは単一のモデルではなく、役割の異なる3つのモデルファミリーで構成されている。
Cosmos Predict(未来を予測する) は、テキスト・画像・動画などの入力から「この後どうなるか」を動画として生成する。実機を動かさなくても多様な状況のシナリオ映像を大量に作れる。2026年版のPredict 2.5は2億本のキュレーション済み動画クリップで強化学習を使って再訓練されており、2Bと14Bの2サイズが提供されている。最大30秒の連続映像を生成できる。
Cosmos Transfer(仮想映像を現実に近づける) は、Isaac Simなどのシミュレーターが出力する構造情報(深度マップ、セグメンテーションマップなど)を写実的な映像に変換する。建築の設計図を本物の外観写真に変換するような技術だ。sim-to-real gapを縮小する最も重要なコンポーネントで、Transfer 2.5は前バージョンより3.5倍小さいにもかかわらず映像品質が上がっている。
Cosmos Reason(物理的な状況を理解する) はフィジカルAI専用のビジョン言語モデル(VLM)だ。Reason 2では入力トークン数が16Kから256Kに16倍拡大され、Physical AI Benchでオープンモデル1位を獲得している。
実際の訓練パイプラインの流れはこうなる:
① 3Dシミュレーターで環境を構築 → ② Cosmos Predictで多様なシナリオ映像を生成 → ③ Cosmos Transferで写実的な品質に変換 → ④ 変換した映像でロボットのAIモデルを訓練 → ⑤ Cosmos Reasonで行動判断の精度を検証・改善
実世界のデータ収集に頼る割合を大幅に減らしながら、質の高い訓練データを大量に得られる構造だ。
海外4社の実装事例:Agility Robotics・Waabi・Skild AI・Neura Robotics
Cosmosは公開から約1年で500万ダウンロードを突破し、製造・物流・自動運転・認知ロボットの各産業で採用が進んでいる。
Agility Robotics(米国):倉庫ヒューマノイドの訓練データを拡張
Amazonと協業する倉庫作業ロボット「Digit」の開発元。Cosmos TransferとOmniverseを訓練に採用し、CTOのPras Velagapudi氏は「Cosmosは、実世界で現実的に集められる量を超えた写実的な訓練データをスケールアップする機会を与えてくれる」と公式に述べている。棚が倒れるなど実機では集めにくい稀なシナリオの訓練データを仮想で大量生成する用途が中心だ(出典:NVIDIA Newsroom、2025年3月)。
Waabi(カナダ):自動運転トラックのコーナーケースを仮想生成
カナダ・トロント発の自動運転トラック企業Waabiは、自社の生成AIシミュレーター「Waabi World」と組み合わせる形でCosmosを活用し、自動運転ソフトの訓練・検証用データのキュレーションに使っている。実際には滅多に起きないが危険なシナリオ(悪天候の急な割り込み、工事中の道路など)を安全に大量生成できる点が、Cosmos採用の主な理由だ(出典:NVIDIA CES 2025プレスリリース)。
Skild AI(米国):FoxconnのBlackwell製造ラインに汎用ロボット脳を展開
Skild AIはCosmosをデータ生成基盤に組み込んで汎用ロボット脳を開発し、2026年3月にFoxconnのヒューストン工場(NVIDIAのBlackwell世代GPUサーバーを組み立てる製造ライン)に実装した。ABB Robotics・Universal Robotsとの連携も同時に発表しており、特定ハードウェアに縛られない汎用AI脳を既存産業用ロボットに組み込む展開を進めている。評価額140億ドル超のスタートアップで、商業展開が最も先行している企業の一つだ(出典:Skild AIプレスリリース、2026年3月)。
Neura Robotics(ドイツ):多数のロボットが互いに学び合う「Neuraverse」
認知型ヒューマノイドロボットを開発するNeura Roboticsは、Cosmos・Isaac Sim・Isaac GR00Tを組み合わせた訓練プラットフォーム「Neuraverse」を構築している。複数のロボットが自分たちの動作データを共有しながら互いに学び合う仕組みを実装しており、Cosmosがその仮想訓練基盤の核として機能している(出典:Neura Robotics公式プレスリリース)。
NVIDIA Cosmos vs Google DeepMind Genie 3──同じカテゴリ、まったく違う設計思想
世界基盤モデルの分野では、Google DeepMindのGenie 3が同時期に注目を集めている。だが両者の設計思想は大きく異なる。
| NVIDIA Cosmos | Google DeepMind Genie 3 | |
|---|---|---|
| 主な用途 | 産業・ロボット・AV向け訓練データ生成 | インタラクティブな3D仮想世界の生成 |
| 物理精度の重点 | 産業用途に耐える高精度物理シミュレーション | リアルタイム3D世界(720p/24fps) |
| 商用ステータス | 商業利用可(Apache 2.0 + NVIDIA Open Model License) | 研究プレビュー段階(商業展開未定) |
| ダウンロード数 | 500万超 | 公表なし(研究公開のみ) |
Cosmosは「工場やロボットで使えるか」「物理的にリアルな環境でロボットが動けるか」を優先する産業実用型のアプローチだ。一方Genie 3は「テキストプロンプトからリアルタイムで3D世界を生成し、その中でインタラクションできるか」を重視する探索的アプローチで、現時点では商業利用ができない。どちらが優れているかではなく、解いている問題が根本的に異なる。
この技術を使ったらどんなプロダクトが作れるか
シナリオA:農業・採掘向けロボット訓練データSaaS(垂直特化型)
ベース実例:WaabiがCosmosで自動運転のコーナーケースを大量生成しているアプローチ。
発展アイデア:同じ発想を、農業ロボット(収穫・農薬散布)・採掘ロボット(坑道内操作)など実世界のデータ収集が特に難しい領域に特化させたSaaSに展開する。農地・鉱山の環境向けにCosmosをファインチューニングし、生成した訓練データを購読型で提供する。ロボットメーカーが世界モデルを自社で構築する必要なく、特定領域の訓練データだけを購入できる。従来のシミュレーターでは農地の不均一な摩擦・泥の動き・不整地の物理特性をリアルに再現しにくくsim-to-real gapが大きいままだったという課題を解ける点が差別化になる。
シナリオB:産業ロボットシミュレーターへのCosmosアダプター(既存プロダクト置換型)
ベース実例:ABBがRobotStudio(ロボットプログラミングソフトウェア)にNVIDIA Omniverseライブラリを統合し、「RobotStudio HyperReality」として2026年下半期リリース予定というケース。
発展アイデア:ABBが自社ソフトウェアで行っているOmniverse統合をサードパーティのミドルウェアとして既存シミュレーターに提供する発想を、Cosmosベースで進めるアダプター製品が考えられる。MoveIt・RoboDK・Gazeboなど既存のロボットシミュレーターの出力(3Dモデル・深度マップ・動作軌跡)をCosmos Transfer経由でリアルな映像品質に変換するAPIを公開する。「既存ツールを変えずに映像品質だけをCosmosレベルに引き上げる」のがポジショニングだ。NVIDIA自身もCosmosを提供しているが、特定ベンダーのシミュレーターとのディープ統合・専門サポートで差別化できる。
シナリオC:工場固有の「生きているデジタルツイン」プラットフォーム(新カテゴリ創出型)
ベース実例:Skild AIがCosmos+Isaac Simで汎用ロボット脳を作りFoxconn工場に実装した事例。HexagonがNVIDIAのPhysical AI Data Factoryブループリントを活用し、ロボティクスプロジェクトを加速させている事例。
発展アイデア:Cosmosを中核に据えた「工場固有の世界基盤モデル」を持つプラットフォームだ。工場のカメラ・センサーデータを継続的に学習させ、その工場の物理環境(棚の位置・商品形状・照度)を反映した専用世界モデルを常時最新状態に保つ。新しいロボットや新製品ラインを導入する際、このモデルから訓練データを自動生成することで実機テストなしにロボットの環境適応が完了するシナリオを目指す。既存のデジタルツインツール(Siemens Tecnomatix・Dassault DELMIA等)は「シミュレーション」にとどまるが、このプラットフォームは「工場固有の世界モデルを持つ生きたデジタルツイン」という新カテゴリになる。
もっと詳しく知りたい人へ
- 公式製品ページ:NVIDIA Cosmos
- 原論文(arXiv 2501.03575):Cosmos World Foundation Model Platform for Physical AI
- GitHub オーガニゼーション:github.com/nvidia-cosmos(Predict/Transfer/Reason/RLの各リポジトリを公開)
- Cosmos Cookbook:nvidia-cosmos.github.io/cosmos-cookbook(実装レシピ集)
- HuggingFace:huggingface.co/nvidia/Cosmos(モデル一覧・ダウンロード)
- HuggingFace Blog:Cosmos Predict 2.5 & Transfer 2.5の詳細解説
「データ問題」を「コンピュート問題」に変えた先に何があるか
Cosmosが現時点で解いているのはロボット・自動運転の訓練コスト削減という具体的な課題だが、その先には大きな方向性がある。産業ロボットの普及がこれまで高コストな実データ収集に依存していたとすれば、Cosmosはその依存を切り離す手段になりうる。実データを集める数年が、GPUの数週間に置き換わる。これが本当に成立すれば、いまヒューマノイドや汎用ロボットを動かせる企業は資本力の大きい一握りに限られている状況が変わると考えられる。2026年現在、製造・物流・ヘルスケア(手術ロボット)まで導入領域が広がっており、NVIDIAは自らフィジカルAIの「Android(汎用プラットフォーム)」を目指していると語っている。世界基盤モデルというカテゴリが、クラウドやLLMに続くAIインフラの新しい層になるかどうか──次に動くのはあなたの工場か、それとも農場か。今後2〜3年が試金石になるだろう。