1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

オープンソースのVLAモデル、まとめてみた

1
Posted at

はじめに

初めまして、機械知能研究室で主にVision Language Action model(VLA)の
研究をしている天野翔斗と申します。

機械知能研究室では、ロボットの視覚機能や自律的に行動するための知能システムについての
研究に取り組んでいます、ぜひご覧ください(研究室のHPはこちらから)

本記事では、VLAの基本的な仕組みを解説した上で、
オープンソースで利用可能な代表的なVLAモデルを取り上げ、
それぞれの特徴やアーキテクチャの違いを整理します。
これにより、VLAモデルの全体像とモデル間の位置づけを理解することを目的とします。

VLAとは

最近よく名前が挙がるVLA、まずは軽くどんなものかを解説から始めます。

VLAとは、視覚情報(Vision)と言語情報(Language)を統合し、それに基づいて行動(Action)を生成するモデルです。

従来のVision-Language Model(VLM)は「画像を理解して説明する」ことに
主眼が置かれていましたが、VLAはそこから一歩進み、
「理解した結果をもとに実際に行動する」ことを目的としています。

例として挙げると

  1. コップを取ってくださいという指示を理解して
  2. 画像からコップを認識し
  3. ロボットアームを動かして実際に取る
    といった一連の処理を実現するのがVLAの特徴です。

図1.png

このようにVLMでは推論で止まっていた出力が、VLAは実際のアクションまで
出力できるようになりました。昨今のロボット需要からもロボティクス分野における
重要な基盤技術として注目されています。

VLAの基本構造

上の図ではVLAモデルと簡略化していますが、実際にはこの内部で複数の処理が行われています

まず入力されたテキスト指示(図中の①)は言語モデルによってベクトル表現に変換され、
「何をするべきか」の指示の意図が解析されます。
一方で入力画像(②)は視覚エンコーダによって特徴量へと変換され、
画像内の物体の位置や種類、特徴などの情報が抽出されます。

その後、これらの言語情報と視覚情報が統合されて「画像内のどの対象に対して
どのような行動をとるか」が決定されます。この決定された情報を元に、
ロボットの具体的な動作の制御信号が生成されます。

このように、図では1つのブロックにして簡略化していたVLAモデルの内部では、

  • 視覚情報の理解
  • 言語指示の解釈
  • 動作への変換
    といった複数の処理が連携して動作しています。

※補足
近年のモデルでは上記の処理を個別のモジュールとして分けずに、
単一のTransformerベースのモデルで統合的に扱う設計も増えてきています。

オープンソースVLAモデルの紹介

ここまではVLAの基本的な仕組みについて説明しました。
ここからは、実際に公開されているオープンソースのVLAモデルについて紹介します。

VLAは急速に研究が進んでいる一方で、再現性や実装といった観点から
自分たちが取得し利用できるモデルは限られています。その中でも本記事では
自分が実際に動作確認できた3つのモデルを取り上げます。

  • OpenVLA
  • OpenVLA-OFT
  • π0.5

OpenVLA

まずはオープンソースVLAの中でも広く使われているOpenVLAを紹介します。
OpenVLA: An Open-Source Vision-Language-Action Model

OpenVLAは画像とテキストを入力として受け取り、ロボットの低レベルな動作
(物をつかむ、引っ張るといった動作)を直接出力するモデルです。

アーキテクチャ解説

OpenVLAの構造は、大きく3つのコンポーネントで構成されています。

スクリーンショット 2026-04-20 130245.png
OpenVLAのアーキテクチャ図

  • 視覚エンコーダ:DinoV2とSigLIPの2つの特徴を統合し、画像の空間情報と
    意味的情報の両方を捉えます。
  • MLPプロジェクタ:視覚情報を言語モデルが理解できる
    「言語埋め込み空間」へと変換・写像します
  • Llama 2 7Bバックボーン:変換された視覚トークンと言語指示を受け取り、
    アクションを予測します。

最終的に、予測されたトークンは「Action De-Tokenizer」を介して、
7次元の具体的なロボット制御アクションへと変換されます。

特徴まとめ

  • 約7BパラメータのVLAモデル
  • 約97万件のロボット操作データによる事前学習
  • 複数のロボットやタスクにも対応できる汎用性

このモデルの重要な点として「汎用ロボットポリシー」として設計されていることです。
タスクやロボットごとにモデルを作るのではなく、一つのモデルで様々なタスクや
ロボットに対応できることを目指しています。

また大規模なロボットデータセットを用いて学習されているため、
異なる環境や対象物に対しても汎化性能を持つと報告されています。

OpenVLA-OFT

先ほど説明したOpenVLAは汎用性の高い強力なモデルですが、その一方で
以下のような課題もありました。

  • モデルサイズが大きく計算コストが高い
  • 新しい環境やタスクへの適応に追加学習が必要

これらの課題に対し、より効率的に適応できるモデルを目指して
提案されたのがOpenVLA-OFTです。
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success

OpenVLA-OFTは、OpenVLAをベースとしつつパラメータ効率の良い
ファインチューニング手法を導入したモデルです。
特に大規模モデル全体をファインチューニングするのではなく、一部のパラメータのみを
調整することで効率よく新しい環境やタスクへの適応を可能にしています。

アーキテクチャ解説

OpenVLAからの主な変更点をまとめます。

スクリーンショット 2026-04-20 130618.png
OpenVLA-OFTのアーキテクチャ図

  • 並列デコーディング(Parallel Decoding): アクションを逐次的に
    生成するのではなく、アクション全体を1回で出力することで、
    推論速度を高速化しました
  • アクション・チャンキング(Action Chunk): 単一のアクションではなく、
    一連の動作の塊を同時に出力します
  • 柔軟な入力拡張: 複数のカメラ視点や、ロボットの関節角度と
    いった追加情報の入力にも対応しています。

特徴まとめ

  • ベースとなったOpenVLAをそのまま活用している
  • 少量データでのファインチューニングが可能
  • 計算コスト・メモリ使用量の削減

このようにOpenVLA-OFTは、高性能なVLAをいかに現実的に運用するかという観点で
重要なアプローチとなっています。特に実機ロボットでの運用や研究環境においては、
大規模なファインチューニングを必要としないことが大きな利点となります。

π0.5

最後にπ0.5を紹介します。
π_{0.5}: a Vision-Language-Action Model with Open-World Generalization

先程説明したOpenVLA系のものとは
やや異なるアプローチを取るVLAモデルで、
よりスケーラブルで汎用的なロボット基盤モデルを目指しています。

アーキテクチャ解説

π0.5​は、視覚と言語、そしてアクションを統合的に扱う階層的な構造を持っています。

スクリーンショット 2026-04-20 131050.png
π0.5のアーキテクチャ図

  • VLMバックボーン(約2.6B): PaliGemma(SigLIP 400M + Gemma 2.6B)をベースとし、
    視覚と言語の高度な理解を担います。
  • アクションエキスパート(約300M): 推論速度を向上させるため、
    アクション生成のみに特化した小さなトランスフォーマーをバックボーンに組み合わせた
    「混合エキスパート」のような構成となっています。
  • 階層的推論: 推論時にモデルはまず画像を読み込み、言語でのサブタスクを導き出します。
    (例として「キッチンを片付けて」という指示に対し
    「まず右の引き出しを開ける」のような小さな動作に区切るプロセス)
    その予測に基づいてアクションエキスパートと呼ばれる専用のコンポーネントが
    ロボットの関節をどう動かすかを生成します。
  • フローマッチングによるアクション生成
    従来のロボットモデルでは、行動を1ステップずつ予測し、
    離散トークンとして扱っていました。
    それに対しπ0.5ではロボットの動作を連続的な分布として扱い、
    動作の変化の流れを直接学習します。
    具体的には初期状態と目標の動作分布の間を滑らかに変換する「ベクトル場」を学習し、
    その流れに沿って動作を生成します。
    これにより従来法よりもなめらかで安定した動作の生成が可能になります。

特徴まとめ

  • SigLIP(画像エンコーダ,約400M)+Gemma(言語モデル,約2.6B)を組み合わせた
    約3Bパラメータのモデル構成
  • 約400時間の実世界データによる学習
  • まったく学習になかった環境やタスクへの汎用性

従来のモデルでは、環境が変わるたびに再学習が必要になるケースが多く、
効率的でない課題点がありました。
π0.5ではそのような制約を緩和し、より実環境での利用を意識した設計となっています。

まとめ

本記事では、Vision-Language-Action(VLA)の基本的な仕組みと、
代表的なオープンソースモデルについて紹介しました。

VLAは、従来の「認識・理解」にとどまるモデルとは異なり、
「行動生成」までを一体化した点に大きな特徴があります。これにより、
言語指示から実際のロボット動作までを一貫して扱うことが可能となりました。

紹介した3つのモデルを整理するとそれぞれが異なる方向性で
発展していることがわかると思います。

  • OpenVLA:汎用ロボットポリシーを実現するベースモデル
  • OpenVLA-OFT:実運用を見据えた効率的な適応手法
  • π0.5:スケーリングと汎化性能を重視した基盤モデル

このようにVLAの研究は単なる性能向上にとどまらず、

  • 計算コストの削減
  • データ効率の改善
  • 未知の環境への適応能力

といった実用性の観点でも進展しています。

一方で、実用化に向けては

  • 大規模な行動データの収集コスト
  • 実環境でのロバスト性
  • 安全性の確保

といった課題も依然として存在しています。

今回はオープンソースで取得できるものに絞り、一部紹介をしましたが
これら以外にも数多くの研究者が様々なアプローチで研究をしています。

今後は、これらの課題を解決しながら、
VLAが実際のロボットシステムへと応用されていくことが期待されます。

自分自身もこの流れに遅れないよう、研究に取り組んでいきたいと思います。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?