なぜPhysicalAIに興味を持つようになったのか
Computer Useの個人的な衝撃
昨年10月頃にAnthropicから「Computer Use」の発表があり、それを見たとき正直感動しました。それまで私は「AIを効率的に運用するにはAIに合わせたインターフェースを用意するのがベストプラクティスであり、今後それが浸透していくだろう」と考えていました。Xでもその論調があったと記憶しています。
それが「いや、人間用の画面をそのまま操作させればよくない?」と提示されたわけで、前提をひっくり返された衝撃は大きかったです。
「人のために作られたソフトウェアを、AIが解釈してそのまま操作する」 この可能性を目の当たりにしたときふと気づいたんです。UI最適化が不要になる云々ではなく、「既存の環境をAIが読み取って動ける」ことが本質なら、「ここれはハードウェア(現実世界)にも、いずれ同じようなことが訪れるだろう」と。
画面の中の「送信ボタン」を認識して押せるなら、現実世界でもAIに指示を出して「照明スイッチ」押せさせるようになるはず。そう考えると、その波が来るのはもう時間の問題だなと確信しました。
実際、すでに「世の中を認識する目」や「音声インターフェース」にフルコミットしている企業も出てきているので、この予感はそう遠くない未来現実になるはずです。
生成AIがソフトウェア上でテキストや画像、音声を解釈して何らかのアクションへ結びつけられるようになったのと同様に、物理世界でもVision(視覚)を駆使して、ドアや階段、調理場といった「人のために設計されたあらゆる物理的なもの」を解釈し、アクションに繋げていく。
生成AIによってその可能性が一気に広がり、今すぐではないにせよいずれその大波が訪れる、そしてそれは不可逆である。そう思うようになったさなかに私が「Physical AI」という言葉を強く意識し始めたきっかけは以下の記事でして、ある意味答え合わせが出来たなと確信しました。
元々その道に進んでいた方からはツッコミ満載かもしれませんが、私の入口はここでした。
もちろん、従来のロボットもカメラやLiDARを使って「指定されたマーク」や「座標」を検知して動くことはできていました。 でも、これからのPhysical AIは次元が違います。「あらかじめプログラムされた動き」を再生するのではなく、その場の状況を見て「文脈理解に基づいた即応的な判断」をする。ここが決定的な違いなんだと思っています。
市場構造の再定義
PhysicalAIとは別文脈で昨年同時期にいわゆる「SaaSの終焉」というワードがホット・トピックとなっており、私はセコイア・キャピタルのレポートからそれを当時認識しました。「人の業務の一部を担うSaaSというツールから、生成AIの発展によってAIは人の業務そのものを請け負うようになる」といった主旨で、その意味するところはソフトウェア産業がアクセス可能な市場規模が3,500億ドルのソフトウェア市場から数兆ドル規模の「サービス労働市場」へと拡大してくというシナリオです。
※現時点もその傾向は徐々に進んでいるなというのが個人的な所感です。
これらの示唆から、技術的なブレイクスルーによって「ソフトウェアAI」が「サービス業務市場」を飲み込んでいくのと同様のロジックで、Physical AIが「物理的な労働市場」を飲み込んでいくことにやがて繋がっていくということも起こるだろうと意識するようになりました。
技術的な進化が市場構造へと波及し再定義していく、その黎明期においてただ横目で見ているか、自ら当事者として何らかの形で関わっていくか。私にとっては後者以外の選択肢は考えられませんでした。
進行形ではAIエージェントの普及を軸に据えつつも、将来のPhysicalAIのステージにマラソンとして加わるというのが現状スタンスです!
NVIDIAのエコシステム
さて、前置きが長くなりましたが本題に入ります。NVIDIAはそんなPhysicalAI開発に向けて「Isaac Sim」、「Isaac Lab」、「Omniverse」、「Cosmos」、「Isaac GR00T」と複数製品を展開しており正直、種類が多すぎて「結局どれが何なの?」となりがちなので、自分自身の理解を整理する意味でもまとめておこうと思います。
PhysicalAIに必要なもの
LLMが膨大なテキストデータを食べて賢くなったように、PhysicalAIにも膨大なデータが必要不可欠です。多く研究はいかにして「使えるデータ」を集めるかに心血を注いでいるといっても過言ではありません。
AI開発をやったことがある人なら分かると思うんですが、開発の8割はデータ収集とアノテーションなんですよね……。ここを想像するだけで頭が痛くなる人も多いはず。
よくニュースで、HMD(ヘッドマウントディスプレイ)を被った人がロボットを遠隔操作(テレオペレーション)している映像を見かけますが、あれこそがデータ収集の現場です。「コップを掴んで移動させる」といった動作を人間がやってみせて、その映像と操作ログをセットで記録し、「この状況ではこう動くのが正解だよ」と模倣学習としてAIに教え込んでいるわけです。
Isaac Sim
VLAを活用したテレオペレーションによる模倣学習は、現在主流とも言える手法ではありますが現実世界の様々なシナリオに対して人海戦術を用いて逐一動作データを収集していたのではどうしても手間がかかりすぎてしまします。この「ロボットに学習させるデータ、どうやって集める問題」をどうにかしないといけません。
Isaac Simはこの後に触れますがOmniverse上に構築されるアプリケーションで、実データの収集課題を効率化していくことが可能なロボティクス専用のシミュレーターで、わかりやすく表現するならPhysicalAIにおける実験場と言ったほうがしっくりきます。
ほんとにいろんな機能があるのですが、とにかく現実の再現度への執着がすごいです。。
・センサー
例えば、ロボットの目となるセンサー類。Isaac SimはRGBカメラやLiDAR、深度カメラなどを、ノイズの乗り方まで含めて忠実に再現してくれます。
・物理エンジン
さらに重要なのが物理挙動です。NVIDIA独自のPhysXエンジンが搭載されていて、硬いもの同士の衝突(剛体ダイナミクス)はもちろん、布やゴムのようなふにゃふにゃしたもの、液体の動きまで高精度に計算してくれます。ロボット制御においては関節の摩擦や、床とのグリップ感の再現が命なので、ここの精度が高いのは本当にありがたい。
・SimReady
シミュレーションを始めようと思ったとき、「まず実験用の棚と荷物の3Dモデルを作ってください。あ、質量と摩擦係数も正確に設定してね」なんて言われたら、その時点で心が折れますよね。 Isaac Simには、物理パラメータ設定済みの数千種類の3DモデルとしてSimReadyアセットが最初から用意されています。FANUCやUnitreeなどの主要ロボットモデルも設定済みで使えるので、環境構築という「準備運動」で力尽きることなく、すぐに実験本番に入れます。
単なる3Dモデル集ではなく物理シミュレートしていく上で必要なデータセットを即座に活用できることで、開発者がシミュレート環境構築の作業ではなく実際のシミュレートに集中できる利点があります。
・合成データ生成とドメインランダム化
そしてここが最大のメリットともいえるかもなんですが、シミュレーター内ならIsaac Replicatorという機能によって「正解データ」を無限に自動生成できます。 手作業でのラベリング作業ほど虚無な時間はないですが、シミュレーターなら座標も物体の種類もシステム側が全部知っているので、爆速かつ正確にアノテーション済みのデータを量産できるわけです。
さらに、シミュレーション特有の「現実と微妙に違うせいで動かない」問題(Sim2Real Gap)対策として、ドメインランダム化という機能も強力です。 これは、シミュレーションのたびに床の模様、照明の明るさ、カメラの角度などをランダムにガチャガチャ変えて学習させる手法です。「どんな床の色でも、どんな照明でも、コップはコップだ」とAIに叩き込むことで、AIモデルは特定環境下に依存することなく「学習したい対象の本質的な動作や特徴」を捉えることが可能となって現実世界に適用した際に高いロバスト性を実現できる、というわけですね。
Isaac Lab
Isaac Simが「シミュレータ」であるのに対し、Isaac Labは「学習アプリケーション構築のフレームワーク」です。 以前にNVIDIAは「Isaac Gym」という強化学習環境を提供していました。これは物理演算と強化学習処理をすべてGPU上で行うことで、従来のCPU↔GPUの課題だった通信ボトルネックを解消して学習速度を数千倍〜数万倍に引き上げるという当時革命的なツールだったらしいです。
Isaac Labは、Isaac Gymの「高速学習」というコンセプトを継承しつつ、Isaac Simの機能として完全に統合された後継ツールです。進化点としてはフォトリアルなシーンでの学習が可能になったことで、これによりIsaac Sim上のデータをそのまま学習に直結できるようになったのは大きな利点と言えます。
・タイルレンダリング
個人的にはこちらの機能に特に注目ポイントで、数千台規模のロボットを同時学習させる際に従来は1台ごとのカメラ映像を個別に描画・処理する必要がありこれが学習時間のボトルネックになって場合によってはサーバーが固まったりなんてのが起こり得るわけです。
その課題を劇的に改善するのが「タイルレンダリング」で、 これは複数のロボット視点をタイル状に並べ、GPU側にあたかも「1枚の巨大な画像」として処理させる技術で、この仕組みこそが学習速度を爆発的に高める大規模並列シミュレーションの鍵ともいえる機能です。
笑っちゃうくらいに力技みたいな手法ですがそのお陰もあって爆速で学習が完了するというのだからやはりNVIDIAすごい。
・Manager-Basedタスク設計
強化学習の環境構築もManager-Based設計という仕組みになっていて、「報酬」や「アクション」といった要素をブロックのように組み合わせて作れます。「ちょっと報酬のパラメータだけ変えて試したい」みたいな試行錯誤が設定ファイルの書き換えだけで済むので、研究開発のスピード感が段違いになります。
Omniverse
ここまで何度か名前が出ているOmniverseですが、これは「現実世界をデジタル空間にコピーするためのプラットフォームでいわゆるデジタルツイン基盤」です。
単に見た目がリアルな3D空間を作るだけなら他にもツールはありますが、Omniverseの真骨頂は「見た目」と「重さや摩擦などの物理的な意味」をセットで扱える点にあります。
その中心にあるのがOpenUSD(Universal Scene Description)という規格です。元々はピクサーが映画制作のために作ったフォーマットなんですが、これ、画像編集ソフトの「レイヤー機能」に構造がすごく似ているんです。
例えば工場のデジタルツインを作るとき、
・レイヤーA:工場の壁や床
・レイヤーB:ロボットの配置
・レイヤーC:照明設定
といった具合に、互いのデータを壊さずに重ね合わせることができます。「配置だけ変えたバージョン」とか「照明だけ暗くしたバージョン」を作るのがめちゃくちゃ簡単になるんですね。CADや3Dツールなど、違うソフトで作ったデータもこのUSD形式で一つにまとめられるので、まさに「3D版の共通言語」といった感じです。
そして描画にはRTXのレイトレーシングが使われるので、ガラスの反射や影の落ち方まで現実そっくりになります。 「見た目がリアルかどうか」はロボット学習においてただの飾りではありません。光の反射でセンサーが誤作動するといった「現実ならではのトラブル」をシミュレーション段階で潰すために、この描写能力が必須とも言えます。
ドキュメントを読んでいくとOmniverseとIsaac SimとIsaac Labの関係性を捉えるのに自分の中で混乱しがちで、そんな人も少なくないかなと思うので下記の画像を見ると分かりやすいです。
整理すると、Omniverse(土台) の上に Isaac Sim(実験場) があり、 その中で Isaac Lab(学習ツール) を回す。 ……という階層関係で捉えると分かりやすいかと思います。
実際、Isaac SimをインストールしようとするとOmniverseのダウンロードを求められるのでそこまで行くと分かりやすいですよね。
Cosmos
実データ収集による課題をIsaac SimやIsaac Labを活用したシミュレーションによって効率化することができても、それでもまだデータが十分でなかったりコストの面でスケールが難しいなどの理由で問題に直面することもあります。
人間なら「コップを落としたら割れる」「ドアは押せば開く」といった物理的な常識(世界モデル)を持っていますが、生まれたてのAIにはそれがありません。Cosmosは、大量の実写映像から「世界はこう動くものだ」という予測能力を学習します。
こういった当たり前を学ばせる役割を持つのがCosmosになります。Cosmosはいわゆる世界基盤モデル(World Foundation Models)のための仕組みと説明されています。LLMは文章のパターンを学習し推論します。しかし物理法則を理解しているわけではありません。そこで出てくるのが世界モデルです。これは「世界がこう変わるはず」を頭の中で予測するAIだと思ってください。
・Predict / Transfer / Reason
Cosmosには「Cosmos Predict」、「Cosmos Transfer」、「Cosmos Reason」の3系統の役割に分かれていています。
Cosmos Predictは今の画像をインプットとして少し先に何が起きそうかを仮想世界上で予測します。例えばは「もしこの道を右に曲がったら…」を脳内で再生するイメージです!
例:ロボットが棚の前にいる
・「手を伸ばしたら箱に当たる?」
・「箱を持ち上げたら下の物が崩れる?」
みたいな分岐を試して、より安全そうな手を選ぶのに役立ちます。
Cosmos Transferは様々なデータから「見た目の雰囲気」を変えてデータを増やしていきます。シミュレーション画像は正しくても見た目が「CGっぽい」ことがありますよね。そられをよりリアルにかつ様々なパターンを実写っぽく寄せるなどの変換をします。データ拡張の例:
・晴れ → 雨っぽくする
・昼 → 夕方っぽくする
・テーブル → 材質を変える
少ない実データでもいろんな状況により汎用性の高いモデルになるということです。
Reasonは見て理解して言葉で考える機能です。
たとえば、
・「なぜ失敗した?」 ->角度が悪い、影で見えてないなど
・「次はどうするべき?」->位置を変える、ライトを当てるなど
さらに危ない動きや変な計画を止めるガードレールとしての見張り役としての使い方も想定されています。
Isaac GR00T
Physical AIの最終目標の一つが人間のいる場所で働けるヒューマノイドです。Isaac GR00Tはそのヒューマノイド向けに作られた汎用の基盤モデル/プロジェクトとして説明されています。
GR00Tの中身は大きくSystem1/System2と別々の役割を持ったモデルが協力して動く仕組みになっています。
・System 2
System2はロボットの目から入った映像とプロンプトによる指示を受け取ります。 上の画像では「オブジェクトを拾って黄色のビンに入れて」と指示をだしたら、どれがオブジェクトでどこにあるのかを認識して、何をするべきか計画を立てます。 ここは少し時間をかけて状況を判断する人間の「思考」に近い部分です。
・System 1
System2の思考パートが決めた目標に合わせて具体的に手や足をどう動かすか瞬時に計算します。 ここでは画像生成AIなどにも使われるDiffusionモデル技術が応用されています。 これによってガタガタしたロボット特有の動きではなくて人間のような滑らかで自然な動きを作り出せます。
・クロスエンボディメント(Cross-Embodiment)
この先様々な形状や特性をもったロボットが登場してその度に1から学習をスタートしたのではキリがないですよね、正直そんなのやりたくないです。。
最近行った勉強会で初めて知ったのですがクロスエンボディメントとは、異なる身体を持つロボット間で学習データやスキルを共有・転用する技術のことで、GR00Tもその思想を取り入れておりベースを元にファインチューニングすることで様々なロボットに適用できるということも目的とされています。
これで各社がゼロから知能を作り直さなくても高度な機能を早く載せやすくなりますね、ということで嬉しいポイントですね!
・Isaac GR00T Blueprint
少数の人間によるデモンストレーションからロボット操作のための膨大な合成モーション軌跡を作成するためのワークフロー
GR00T-Teleop
Isaac Lab上でロボットを遠隔操作した軌跡情報を抽出、マッピングしたデータを収集する
GR00T-Mimic
テレオペレーションで収集した少数データに対してバリエーションを持たせた大量の動作データを生成、ドメインランダム化を実施する
GR00T-Gen
Sim2RealGapを減らすために環境やテクスチャなど様々な条件を変更して学習させる。
終わりに
こうして整理してみると、NVIDIAのアプローチがいかに徹底しているかが分かります。 大量のGPUパワーでシミュレーションを回して合成データを生成し、それを学習させる。「テレオペレーションによる人海戦術」という泥臭い労働から人類を解放してやる、という強い意志すら感じますね。
1つ1つの製品を知るだけでも大変ですが、このエコシステム全体が噛み合ったときPhysicalAIは一気に実用化へ進むんだろうなとワクワクしています。





