アドベントカレンダー
初参加させていただきます
基盤モデル × Robotics 16日目です
初めに
基盤モデルとロボティクスに関して,大きく2つの流行があると(個人的には)思っています
一部以下から抽出
https://github.com/GT-RIPL/Awesome-LLM-Robotics?tab=readme-ov-file
Robotics基盤モデル
ロボットの動作そのものを出力することができるモデル 例 制御周期ごとの手先速度,角速度を出力
-
RT-X "Open X-Embodiment: Robotic Learning Datasets and RT-X Models", arXiv, July 2023.
[Paper] [Website] -
RT-2 "RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control", arXiv, July 2023.
[Paper] [Website] - PaLM-E: "PaLM-E: An Embodied Multimodal Language Model", arXiv, Mar 2023, [Paper] [Webpage]
- RT-1: "RT-1: Robotics Transformer for Real-World Control at Scale", arXiv, Dec 2022. [Paper] [GitHub] [Website]
- RobotFlaingo: Vision-Language Foundation Models as Effective Robot Imitator. [Web]
- Octo: Open-World Object Manipulation using Pre-Trained Vision-Language Models. [Web]
最近では,画像情報を推論に利用した手法も提案(ゴールイメージの付与,手先軌道の手書き指示など)
PaLM-E
RT-Sketch [Web]
RT-Trajectory [Web]
LLM/VLMを用いたTask and Motion Planning(TAMP)
受け取った言語指示を,タスクレベルの手順に分解して言語(もしくはコードの形)で表現し,ローレベルのポリシーを実行する
-
ProgPrompt: "Generating Situated Robot Task Plans using Large Language Models", arXiv, Sept 2022. [Paper] [Github] [Website]
Code-As-Policies: "Code as Policies: Language Model Programs for Embodied Control", arXiv, Sept 2022. [Paper] [Colab] [Website] -
VoxPoser "VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models", arXiv, July 2023
[Paper] [Website] - TidyBot: "Personalized Robot Assistance with Large Language Models", arXiv, May 2023. [Paper] [Pytorch Code] [[Website]
- InnerMonlogue: "Inner Monologue: Embodied Reasoning through Planning with Language Models", arXiv, July 2022. [Paper] [Website]
- VOYAGER:"VOYAGER: An Open-Ended Embodied Agent with Large Language Models", arXiv, May 2023. [Paper] [Pytorch Code] [Website]
本記事では2つのうち,後者のTask and Motion Planningにおける最近の論文を紹介します
せっかくなのでさらにトレンドのGPT-4Vの能力を活用した手法を持ってきました(本当はGeminiの方がトレンドかもしれない)
Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning
Robotic Vision-Language Planning (ViLa)の提案
VLMを活用した長期的(long-horizon)ロボットタスクプランニング
概要
- 知覚的データをダイレクトにReasoningやPlanningに適用 → 一般的な感覚の知覚を深く理解してタスクプランニング(空間的なレイアウトや物体のふるまいなど)
- マルチモーダルなゴール状態の指定に柔軟 視覚的フィードバックも可能
- 実機とシミュレーション環境で検証 従来のLLM-baseのプランナーより優位な結果が出た
背景
あなたならどうする
皆さんは 「コーラをとってきて」 と言われたらどうしますか??
Case1. コーラが見えていたら
すぐにとって渡しに行く
Case2. コーラが見えなかったら
別の場所を探す 冷蔵庫とか保管庫とか
このように、人間であればシンプルな指示からその場その場で視覚情報を判断して複雑に行動することが可能
この適応能力は人間がシーンを深く理解しているからこそできることです
LLM Task Planning
- LLMは広くその驚くべき性能を発揮しており,複雑かつ長期的なタスクをLLMで計画させる手法が数多く提案
しかし、LLMのタスク計画では視覚的情報を十分に取り入れることが難しい
例 ロボットの身体状態,環境の情報,物体形状やプロパティ,実環境制約, etc.
- 従来手法では,視覚情報をテキスト化したセマンティックな情報を用いて提供していた
- Affordance Model 「どこをつかめばいいか」などのアフォーダンスを抽出しテキスト化
- Grounding Model 物体の場所やロボットの状態などをテキスト化
時に真の必要なタスクに関連する複雑な環境情報を取り込めない可能性がある
GPT-4Vの登場
- GPT-4V(ision)の登場 リサーチの幅を大きく広げている
- https://cdn.openai
- 画像情報をそのまま入力できる → 認識情報を直接的に言語モデルに導入することが可能に
提案手法
Robotic Vision-Language Planning (ViLa) の提案
独立したAffordance Modelを排除し,環境の視覚的観測と高レベル言語に基づいて,Zero-shotでVLMに行動可能なステップのシーケンスを生成させる手法の提案
-
視覚世界に根ざした一般的知識の深い理解
空間レイアウト(例:Take Out Marvel Model)やオブジェクト属性(例:Stack Plates Steadily)の理解を必要とする複雑なタスクを得意とする.→ LLMのPlannerでは一貫して不足していたもの
-
多彩なゴール指定
柔軟なマルチモーダルな目標指定をサポート
言語による指示だけでなく,ゴールイメージ,さらには言語とイメージの両方をブレンドして、ゴールを効果的に定義することができる。 -
視覚的フィードバック
直感的で自然な方法で視覚的フィードバックを効果的に利用し、ダイナミックな環境でのロバストなクローズド・ループ・プランニングを可能に
Method
Vision-Language Models as Robot Planners
著者: Yingdong Hu, Fanqi Lin, Tong Zhang, Li Yi, Yang Gao 引用*
非常にシンプル かつ直観的です
- 高レベルのInstruction(Fig.2 左上)と現在の画像,すでに終了した行動をVLMに入力
- Task-Related Objects and Locationsを抽出(コード公開前のため一部想像あり)
- 出力形式
i(Number). Object Name and Location (relationship)
- Chain of Thought Promptとして次の処理で利用
- 出力形式
- Chain of Thought Promptを加え再度VLMが推論 Task Planを生成
- すでに完了したTask Stepの続きを生成
- 自然言語(Code生成ではない)
- 事前に提供したロボットのPrimitiveタスクをベースに推論
- 生成されたTask Planのうち1つ目のTaskのみをロボットが実行
- 実行されたタスクはFinish Planに追加され再度推論
ViLaの強み
視覚世界の一般的知識の理解
- 空間的なレイアウトを理解できる
- 今まではObjectなどの代表的な情報が中心であったため,物体度同士の関係性等の必要な情報が欠落していた
- 提案手法ではより幅広い情報を画像から直接取得できるようになった.
- オブジェクトの振る舞いを理解できる
オブジェクトがどういった性質を持っているかを理解することが可能になった.
幅広いゴール指定
片付け方を指定するときはゴールイメージを与えたほうがいい
こういったマルチモーダルな入力を受け入れられるのがVILAのいいところ
例 寿司の並べ方
著者: Yingdong Hu, Fanqi Lin, Tong Zhang, Li Yi, Yang Gao 引用*
動画
https://robot-vila.github.io/media/robot-videos/versatile_goals/sushi.mp4
Visual Feedback
-
今までは情報をテキスト化してすべてLLMで補っていた
→ 言語化のフェーズで複雑さを増し、かつ価値のある情報が失われる -
提案手法では,現在のイメージと完了したタスクのみをフィードバック
→ 視覚とタスク進行度のみから推論することが可能に
実験
著者: Yingdong Hu, Fanqi Lin, Tong Zhang, Li Yi, Yang Gao 表中のすべての画像の引用*
Baselines:
- Say-Can: "Do As I Can, Not As I Say: Grounding Language in Robotic Affordances", arXiv, Apr 2021. [Paper] [Colab] [Website]
- Grounded Decoding: Guiding Text Generation with Grounded Models for Embodied Agents [WebPaper]
- CLIPort: What and Where Pathways for Robotic Manipulation [Web Paper]
印象的だった部分
ポテチを追加してもVisual Feedbackで再度片付けるタスクを計画している様子
Citation
aXiv: https://arxiv.org/abs/2311.17842
web: https://robot-vila.github.io
@article{hu2023look,
title={Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning},
author={Yingdong Hu and Fanqi Lin and Tong Zhang and Li Yi and Yang Gao},
journal={arXiv preprint arXiv:2311.17842},
year={2023}
}
終わりに
新たなモダリティは常に革新を与えますね
もっとロボットができることが増える予感…