【技術解説】次世代ロボットAI「MolmoAct2」は、なぜ“ワールドモデル全面依存”を避けたのか

Posted at 2026-05-11

ロボットAIは「賢さ」より先に「間に合うか」を問われる時代へ

VLA（Vision-Language-Action）モデルの進化で、ロボットは「見て、理解して、動く」を一体で扱えるようになってきました。
ただ、実際の現場ではもう一つ重要な条件があります。推論が速く、安定して、再現できることです。

最近公開されたMolmoAct2は、まさにこの実装現場の条件を正面から扱ったモデルです。
論文ページ（alphaXiv）とAi2の解説（Ai2 Blog）を読むと、主眼は「最高性能の一点突破」ではなく、「オープンで、載せ替えやすく、閉ループ制御で使える速度」を揃えることにあります。

MolmoAct2の設計を、実装者の視点で読み解く

従来VLAの壁は、性能より“運用条件”にあった

多くの先端ロボットモデルでは、重みや学習データ、再学習レシピが十分に公開されず、現場での調整が難しいことがありました。
また、研究用ハードウェア前提の構成だと、低〜中価格帯のロボットに移した瞬間に再現性が落ちることも起きます。

MolmoAct2はこの点に対して、モデルだけでなくデータやトークナイザーも含めて公開範囲を広げ、実運用への移植性を重視したと説明されています（arXiv HTML）。

なぜ「ワールドモデルを常時回す設計」を避けたのか

近年は、将来フレームを予測するワールドモデル系のアプローチが注目されています。
ただし論文本文では、推論時に重いロールアウトや大量トークン生成が入ると、レイテンシが大きくなりやすいことが課題として挙げられています（arXiv HTML）。

ここでMolmoAct2-Thinkが採るのは、「毎ステップで全景を再推論しない」方針です。
シーンの静的領域はキャッシュを再利用し、変化があった領域だけ深度トークンを再予測する適応的推論を使います。
要するに、未来映像を丸ごと描くより、差分のある場所だけを追う設計です。

この考え方は、動画圧縮のフレーム間予測や、UIの差分レンダリングに近い発想だと捉えると理解しやすいです。
計算資源を「変化が起きた場所」に集中させることで、幾何学的な手がかりを維持しつつ遅延を下げる、というのが狙いです。

離散トークンの頭脳と連続制御を、どう接続したか

MolmoAct2の中核は、空間・身体推論を強化したMolmo2-ERを土台にしながら、行動生成を別の専門モジュールで受ける構造です。
具体的には、VLM側のレイヤーごとのKVキャッシュを条件付けに使い、flow matchingベースのAction Expertで連続軌道を出力する設計が示されています（arXiv HTML）。

この構造の良いところは、言語・視覚側の汎用推論を残しつつ、行動だけを連続制御に最適化できる点です。
さらにOpenFAST Tokenizerにより、異なるロボット由来の軌道を共通の離散表現へ寄せることで、学習パイプラインを統一しやすくしています。

オープンデータ戦略は、研究より「実装速度」に効く

MolmoAct2では、双腕データセット（720時間規模）を含む公開が進められています（Ai2 Blog）。
これは単に「データが多い」という話ではなく、失敗時の切り分け、再学習、機体差分の吸収といった、実装側の改善ループを回しやすくする意味があります。

MolmoAct2が示したのは、SOTA競争の次に来る実装原則

MolmoAct2の価値は、「ワールドモデルが不要」と言い切ったことではありません。
実際には、重い未来生成を常時回す設計を避け、閉ループ制御に必要なレイテンシと空間推論のバランスを取りに行った点にあります。

ロボットAIを現場に入れるとき、最終的に効くのは、最高精度そのものよりも、応答速度、再現性、拡張性の掛け算です。
MolmoAct2は、その掛け算をオープンな形で成立させようとした、実装志向の一手として読むのが妥当だと感じます。

作成日：2026年5月8日

参考リンク（本文で参照）

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up