【論文紹介】RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control(2023.7)

Posted at 2026-02-06

論文選定理由

ロボティクスに興味があるものの、技術的な情報がきちんと追えていませんでした。
そんな焦燥感があるなか、ロボティクス関係調べ物をしていたところ、「RT-2」というモデルがロボット制御の転換になっている、との記事を見つけました。
RT-2は「知能（LLM/VLM）」と「身体（ロボット制御）」の境界線を消し去った、世界初の本格的なVLA（Vision-Language-Action）モデルといわれている様なので（Gemini談）、これは抑えておかなければと思い、今更ながら本記事の執筆に至りました。

RT-2とは

Google DeepMindが発表したRT-2（Robotic Transformer 2） は、Web上の膨大な知識をロボットの「動き」に直接結びつけたVLA（Vision-Language-Action）モデルモデルです。
ChatGPTのように言葉を理解する能力（VLM）を、そのままロボットの制御に応用した点に新規性がありました。（2023年時点）

論文概要

論文名： RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
研究の目的： インターネット上の膨大な画像・テキストデータから得た「知識」を、ロボットの低レベルな制御（関節をどう動かすか）に転送すること。
主な成果： 未知の物体や複雑な指示に対しても、追加学習なしで柔軟に対応できるようになった。

これまでのロボット制御

RT-1以前： 特定のタスクごとに大量の「ロボット操作データ」を学習させる必要がありました。
課題： 学習データにない物体（例：新しいおもちゃ）や、抽象的な指示（例：『絶滅した動物を拾って』）には対応できていなかったです。

RT-2の特徴と成果

VLA（Vision-Language-Action）の導入：
従来のVLM（PaLM-EやPaLI-Xなど）をベースに、出力として「ロボットの行動トークン」を直接吐き出すよう微調整（Co-fine-tuning）がされています。
Web知識の転送： * 恐竜の画像がWebに多ければ、ロボットは「恐竜を拾って」という指示だけで、見たことのない恐竜のフィギュアを正しく認識して掴めます。
推論能力（Chain-of-Thought）：
「即席のハンマーとして使えるものを探して」といった、意味的な理解を要するタスクもこなせる様になっています。

※ここから先の「実験」は論文の解説ではなく、私が独自に実施した内容になります

実験（シミュレーションによる理解促進）

本論文におけるロボット制御の仕組みを理解するため、ユーザーが入力した自然言語の命令（例：「喉が渇いた人に渡すものをゴミ箱の近くに置いて」）を解釈して、ロボットアームが視覚的な推論を経て実行に移すまでを検証するシミュレーションを作成しました。

処理概要

入力: ユーザーからの自然言語コマンド。
視覚情報の取得: シミュレーターの現在の状態をスクリーンショットとしてキャプチャ。
VLM推論: 命令と画像をGoogle Gemini 3（gemini-3-flash-preview）に入力。モデルは画像内の物体のID、座標、および文脈（どの物体が飲み物か等）を解析。
行動計画: モデルは「何を掴み、どこへ移動させるか」の具体的な座標を含むJSONデータを出力。
運動制御: 出力された座標に基づき、2自由度のロボットアームが物体を操作。

技術スタック

カテゴリ	技術
コア	React 19, TypeScript
AI (VLM)	Google Gemini 3 (gemini-3-flash-preview)
スタイリング	Tailwind CSS
描画	HTML5 Canvas API

デモ動画

自然言語の処理だけで、ロボットアームがとるべき作業を判断し、行動（アームの移動先の座標）に変換できていることが確認できるかと思います。

アーキテクチャの違い

作成したシミュレーションでも自然言語でのロボットアーム処理がうまく動いている様には見えるのですが、以下の様な違いがあります。

比較観点	デモ	RT-2
1. 出力フォーマット	JSON形式で座標や物体IDを出力し、後続のフロントエンドや制御プログラムがそれを解釈	行動トークンを直接出力。数値（例:「1 128 91...」）を文字列として扱い、言語モデルの語彙の一部として生成。
2. 知識の浸透度	役割分担型。脳（Gemini）は意味を知っているが、制御側（IKエンジン）は物体の意味を知らず、単なる幾何計算を行う。	完全統合型。単一のモデルがウェブの知識とロボットの動作を同時に学習しているため、意味的知識が「数ミリ右に動く」といった肉体的な制御に直接反映される。
3. 制御の直結	間接制御。推論結果を制御側のエンジンに渡し、リアルタイムで関節角度を計算するステップを介する。	直接制御（エンドツーエンド）。画像からアクションへ直接マッピングするように学習されており、中間的な幾何計算（IK）を通さず、視覚情報から直接アームを動かすクローズドループ制御を実現する。

実験を踏まえて

それっぽく動く仕組みはシミュレーションで実現できたものの、現実世界では、ロボットアームから得られる情報（「物体の質感」「滑りやすさ」）なども考慮した制御が必要になってきます。
シミュレーションだと、そういった自然言語の指示情報と、ロボット側から取得できる情報のマッピングが必要になる一方、RT-2の様に直接自然言語の指示とロボットの制御情報が直接結びついていると、そういうタスクに対しての汎化性が高くなるのかな、という言う風に理解しました。

現在の最新ロボット制御モデルの状況（2025〜2026年）

Gemini Robotics： Google DeepMindが2025年に発表。Gemini 2.0をベースに、より高度な推論とマルチステップのタスク実行が可能になっています。

π0: Physical Intelligence 社が開発しました。拡散モデル（Diffusion Policy）を組み合わせ、より滑らかで高速な連続動作を実現することが可能となっている様です。

Boston Dynamics × Gemini： 2026年、Atlas（人型ロボット）にGeminiの知能が搭載され、より複雑な現場作業への適応が進んでいます。

最後に

少し古い論文ですが、RT-2の概要について解説させて頂きました。
RT-2のようなVLAモデルはロボットの体に依存せずにモデル活用ができる様なので、チャット用のAIとしてChatGPTやGeminiをユーザーが好みに応じて利用している様に、ロボットの体をユーザーが自由に選んで利用する様な時代になっていくのかな、とワクワクしています。
Gemini 3のような高度なVLMを活用することで、簡単に「言葉の意味を理解して動くアーム」をシミュレートできるのにも驚きました。
ロボット界隈も最近加速的に進歩しているので、なるべく動向を追っていきたいところです。

参考資料

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up