TL;DR
- Awesome Gemini Robotics は、GoogleのGemini Robotics-ER 1.5向けに、画像・動画付きの実践ユースケースとコピペ可能なプロンプトを集めたオープンソースのギャラリーです。READMEには**最小コード(Python)**のクイックスタートも掲載されています。(GitHub)
- ER 1.5は空間理解(2Dポイント/バウンディングボックス/軌跡)や長期タスク計画、検索などのツール呼び出しに長けた**“ロボットの高次推論モデル”。2025年9月25日にGemini API(プレビュー)**として公開され、公式ドキュメントと開発者ブログに使い方がまとまっています。(Google AI for Developers)
- リポジトリはMITライセンス、多言語README(英/日/中/韓/越)含む。PR歓迎で「ケースの追加手順」も明記。(GitHub)
なぜ今「Gemini Robotics-ER 1.5」なのか
Google/DeepMindはVLA(Vision-Language-Action)モデルとER(Embodied Reasoning)モデルの二枚看板でロボティクスを前進させています。ER 1.5はシーン理解と計画立案・道具の活用(検索等)・進捗推定を担い、長いタスクを段階的にこなす“頭脳”として設計されています。開発者はGemini APIからモデルを呼び出し、既存のロボット制御APIとオーケストレーションできます。(Google DeepMind)
公開情報:2025-09-25に**Gemini Robotics-ER 1.5(プレビュー)**がリリース。概要とサンプルは公式ドキュメント/開発者ブログを参照。(Google AI for Developers)
リポジトリ概要(Awesome Gemini Robotics)
- 主旨:ER 1.5のユースケース+プロンプト集(カード形式)。各ケースに代表画像とJSONに優しい出力指定を含め、コピペ運用を想定。(GitHub)
-
クイックスタート:
gemini-robotics-er-1.5-preview
を呼ぶ最小Python例。画像とプロンプトを与えて**座標(0–1000正規化)**などの空間出力を得るスケッチが示されています。(GitHub) - 多言語README:英語・日本語・中国語・韓国語・ベトナム語。(GitHub)
- ライセンス:テキストはMIT。✅マークの画像はGoogle公開デモの参照であり再配布時は要確認、プレースホルダは自分の画像に差し替え推奨。(GitHub)
-
貢献方法:
cases/<short-name>/
に README(1–2文+プロンプト) と 画像 を置き、JSONフレンドリーなプロンプト&出典の明記。PR歓迎。(GitHub)
代表ユースケース(抜粋)
リポジトリには10件以上のケースが掲載されています。以下は一部抜粋です(詳細は各ケースのプロンプトを参照)。
-
未定義物体へのポインティング
画像内の最大10個の項目へポイントし、[{"point":[y,x],"label":...}]
形式で返す。0–1000正規化の座標指定。(GitHub) -
特定物体(例:bread, starfruit, banana)へのポインティング
指定カテゴリに一致する全ポイントを抽出。出力はJSON配列。(GitHub) -
抽象カテゴリ(例:fruit)でのインスタンス検出
「果物」のような抽象的概念でも全インスタンスの位置を返す。(GitHub) -
2Dバウンディングボックス
{"box_2d":[ymin,xmin,ymax,xmax],"label":...}
(整数、0–1000正規化)。最大25物体。(GitHub) -
軌跡計画(単純/障害物回避)
例:赤いペンを所定位置へ動かす15点の軌跡、床の障害物を避けて目的地へ向かう10点の軌跡など。(GitHub) -
動画の時系列解析
1本の動画に対し、開始/終了タイムスタンプごとの説明をJSONで生成。特定秒区間のズーム解析例も提示。(GitHub) -
オーケストレーション:お弁当を詰める
説明と参照ポイントを組み合わせた段取り計画の出力例。実運用のロボコンや家事支援タスクに応用しやすい。(GitHub)
これらのケースは公式クックブック/ブログのデモと整合しており、ER 1.5の空間理解→計画→(必要なら)ツール呼び出しという流れを再現しやすくなっています。(GitHub)
使い方のヒント
- JSON一貫性:出力をJSON固定にすると、下流のモーションプランナーやピッキングに直結させやすい。多くのケースが0–1000正規化で統一。(GitHub)
- 段階実行:ER 1.5の返すポイントやボックスを、既存の3Dセンシング/IK/グラスタに渡して運動生成。タスク分解と**外部ツール(Search等)**の呼び出しも想定。(Google AI for Developers)
- 画像の扱い:✅付きの画像はデモ参照。自分の環境に合わせて置換が推奨。(GitHub)
最小コード(Pythonスケッチ)
モデルID例:
gemini-robotics-er-1.5-preview
。詳しくはREADMEのQuick startへ。(GitHub)
from google import genai
from google.genai import types
client = genai.Client()
MODEL_ID = "gemini-robotics-er-1.5-preview"
prompt = """
Point to no more than 10 items in the image.
Return [{"point":[y,x],"label":"<name>"}] with y/x normalized to 0-1000.
"""
img_bytes = open("scene.jpg", "rb").read()
res = client.models.generate_content(
model=MODEL_ID,
contents=[types.Part.from_bytes(data=img_bytes, mime_type="image/jpeg"), prompt],
config=types.GenerateContentConfig(
temperature=0.5,
thinking_config=types.ThinkingConfig(thinking_budget=0)
)
)
print(res.text)
コントリビュート(PRの出し方)
-
cases/<short-name>/
を作成し、1–2文の説明+プロンプトを書いたREADME.md
と 画像 を追加 - JSONフレンドリーなプロンプト、出典の明記を守る
- そのままPR!(GitHub)
ライセンスと表記
- テキスト:MIT(本リポジトリ)
- 画像:✅はGoogle公開デモ参照。ライセンス要確認。プレースホルダは自前画像に差し替え推奨。(GitHub)
関連リンク
- リポジトリ本体:GitHub30/Awesome-Gemini-Robotics(README/Use cases/クイックスタート/多言語README)(GitHub)
- Robotics 概要(ai.google.dev):ER 1.5の設計思想、API統合、ユースケースまとめ (Google AI for Developers)
- Google Developers Blog:ER 1.5の発表・デモ・ポイント精度のグラフ等(2025-09-25) (Google Developers Blog)
- Gemini API リリースノート:ER 1.5 プレビュー登場(2025-09-25) (Google AI for Developers)
- DeepMind モデルページ:デュアルモデル構成(VLA+ER)の解説 (Google DeepMind)
まとめ
- Awesome Gemini Roboticsは、ER 1.5を素早く試したい人向けに実例とプロンプトを整理した実務的なカタログです。
- 空間的に根拠づけられた出力(ポイント/ボックス/軌跡)→制御の橋渡しに最適。
- まずはスター&PRで、あなたのロボット事例を追加してみましょう!(GitHub)
補足:この記事は2025-09-27(JST)時点の情報に基づいています。モデルやAPIの名称・提供状況は公式ドキュメントの更新を確認してください。(Google AI for Developers)