More than 1 year has passed since last update.

基盤モデル×RoboticsAdvent Calendar 2023

SpCoRAP：大規模言語モデルと場所概念モデルによる生活支援ロボットの行動計画

Last updated at 2023-12-25Posted at 2023-12-25

はじめに

はじめまして！
創発システム研究室博士課程2回生の長谷川翔一です．
空間の意味理解に関するSemantic Mappingの研究を主にしています．
また最近では，サービスロボット競技会のRoboCup@Home JPなどにも出場したりしてます．
(X (旧Twitter)もやっています．)

基盤モデル×RoboticsのAdventCalendarの20日目では，RoboCup@Home Jp 2023のTechnical Challengeで準優勝，日本ロボット学会学術講演会 (RSJ2023)で発表した，
「SpCoRAP (Spatial Concepts-based Prompts and Sequential Feedback for Large Language Models-based Robot Action Planning)」について紹介します．

論文のアクセス

論文 (RSJ2023時点)：https://drive.google.com/file/d/1En0ZFhsJbvLYqwFQstu5q6X360ODuu8C/view?usp=sharing
発表スライド：https://speakerdeck.com/shoichi_hasegawa/rsj23-leveraging-a-large-language-model-and-a-spatial-concept-model-for-action-planning-of-a-daily-life-support-robot
youtube：https://youtu.be/EzMYOqqJyFk

紹介動画

論文の紹介動画になります．
提案モデルの概要と実環境でのデモンストレーションです．

研究背景

ロボットがユーザに支援を行うときに，ロボットはユーザの言語指示を理解し，その場に適した行動を取ることが重要です．
生活環境でロボットに与えられるユーザの言語指示は，"ダイニングにあるお皿を片づけて"や"キッチンにあるお菓子をボブの部屋に持って行って"などの物体や場所に関するオープンな語彙を含み，多様な形式であることが想定されます．
これらの指示に対してロボットは，どの場所に移動し，何を発見する必要があるかなど行動を選択し，タスクを遂行することが望ましい．

ユーザの言語指示に対し，GPT-4などの大規模言語モデルでロボットの行動計画をする研究が盛んに行われています．
具体的な方法として，大規模言語モデルに言語指示，物体のリストや場所のリストなどの情報が記載された現場の知識，ナビゲーションや物体検出などのロボットのスキルセットをテキストで入力します．
その後，大規模言語モデルは与えられた言語指示を達成するための行動列を生成できます．
代表事例として，Google社のPaLM-SayCanやMicrosoft社のChatGPT for Roboticsがあります．

しかし，現場の知識は誰がどうやって記述するのでしょうか？
PaLM-SayCanやChatGPT for Roboticsでは，開発者が想定した環境に対して記述していく必要があります．
例えば，ある環境に対して，
appple, orange, bananaなどがどのくらいの割合でkitchenに存在し，場所はdining, bedroomなどが存在するように，GPT-4に与えるプロンプトに記述する項目が多いです．
そのため，現場の知識を開発者が全て記述するのは負担が大きいことが問題として挙げられます．

現場環境における知識獲得手法 - 場所概念モデル

次に現場環境でロボットが知識獲得をする手法として，場所概念モデル¹²³を紹介します．
場所概念モデルはベイズ理論の枠組みに基づく確率的生成モデルです．

以下は場所概念モデルのグラフィカルモデルを表し，ロボットの複数のセンサ情報から確率分布のパラメータを学習します．
モデルの特徴として，物体名がどの場所の領域で観測されやすいかを推論 (クロスモーダル推論)することができます．

本研究では，空間のまとまり毎に場所や物体名の分布を持ち，異なるモダリティ間でクロスモーダル推論が可能なため使用します．

研究目的

本研究では，ロボットが現場知識の獲得のために場所概念モデルを用いることで開発者が知識を記述する負担をなくし，現場知識を大規模言語モデルに与えると，物体探索タスクの成功数がどの程度改善するかを検証します．

提案モデル

以下は提案モデル (SpCoRAP)の概要図です．
SpCoRAPは，場所概念モデルに基づく現場知識の獲得と記述，大規模言語モデルによる現場知識を考慮した行動計画，動作エンジンによる逐次的な行動実行の3つから構成されます．

場所概念モデルに基づく現場知識の獲得と記述

次に現場知識のプロンプトの作成方法について説明します．
本研究では，場所概念モデルのクロスモーダル推論を利用し，現場知識のプロンプトを作成します．
具体的には，2種類の現場知識のプロンプトを作成します．

一つ目は，場所の単語に関するプロンプトです．
各空間領域にi_tにおける場所に関する単語w_tを右式で計算します．
計算結果に基づき，確率値の高い上位5個の単語を用いて，以下のプロンプトを作成しました．

二つ目は，_物体配置に関するプロンプトです．
各空間領域i_tにおける物体ラベルo_tを以下の式で計算します．
計算結果に基づき，右に示すプロンプトを作成しました．

場所概念モデルの学習で得た確率分布のパラメータを表現するためにこのように作成しました．

大規模言語モデルによる現場知識を考慮した行動計画

次にGPT-4による行動計画について説明します．
GPT-4に入力するプロンプトは左に示し，現場知識に関するプロンプト，ロボットのスキルセット，言語指示が該当します．
スキルセットはナビゲーション，物体検出，物を置く，物を拾うのスキルに関する説明文が記載されています．

これらのプロンプトをGPT-4に入力し，GPT-4は逐次的に行動を生成します．
これにより，現場知識に基づき行動計画を行うため，探索する部屋数の削減が期待できます．

動作エンジンによる逐次的な行動実行

最後に，動作エンジンによる行動実行について説明します．

GPT-4で生成した行動をロボットの実行させ，
現場環境からのFeedbackを得るために，GPT-4と動作エンジンを接続します．

GPT-4で行動を生成した後，FlexBEと呼ばれる動作エンジンに行動名が入力されます．
FlexBEには各行動名に対応した動作プログラムがあり，行動名に応じて実行されます．

その後，FlexBEはロボットに対して制御命令を送信し，実行結果をSucceedかFailedの2値でGPT-4返します．
スキルの失敗パターンは図の通りになります．
GPT-4は実行結果に基づき再度行動を生成し，FlexBEで行動を実行します．
以降これを繰り返します．

実験

実験目的は，場所概念モデルで得た現場知識を大規模言語モデルに用いると，
物体探索における部屋の訪問数やタスクの成功数をどの程度改善可能か検証することです．

実験条件の詳細は，論文および発表資料をご参照ください．

実験結果です．評価項目として，二つ使用しました．

物体探索時に1部屋の訪問で，対象物を発見できた割合
探索タスク時における部屋の訪問数

比較手法と比べ，物体を発見できる回数が向上していることが分かります．

これらの結果から，ベースラインは場所概念モデルで得た知識を用いないため，性能が低下したと考察します．

また実験で観察されたケースとして，2つ確認されました
一つ目は，ロボットが行動しないケースです．
"I need you to locate a mug for me."という指示を与えたとき，GPT-4は以下の返答をしました．
ロボットが曖昧な指示と判断した場合はユーザとインタラクションを取ることで，こういったケースは回避できると考えています．

二つ目は，行動計画が現場知識に沿わないケースが確認されたことです．
「plastic airplaneが寝室で観測される確率が最も高い」という環境知識が与えられたときに，
ロボットは寝室ではなく，最初にリビングに移動したことを確認しました．

これは大規模言語モデルによる行動計画に物体の配置分布だけでなく，"plastic"や"airplane"といった一般用語も影響を与えているのではないかと推察しています．

おわりに

今回，大規模言語モデルと場所概念モデルを組み合わせたSpCoRAP (Spatial Concepts-based Prompts and Sequential Feedback for Large Language Models-based Robot Action Planning)を紹介しました．
実験はシミュレーション環境の実験のみですが，youtubeの動画にて実環境でのデモンストレーションを行っています．
また現在は，別の実験目的のもと，提案モデルの検証を進めています．

それでは皆さん，良いお年を！

A. Taniguchi, et.al. “Improved and scalable online learning of spatial concepts and language models with mapping”, Autonomous Robots, Vol.44, pp927-946, 2020. ↩
S. Hasegawa, et al. “Inferring Place-Object Relationships by Integrating Probabilistic Logic and Multimodal Spatial Concepts”, SII , pp.1-8, 2023. (Best Paper Award，SIYA-SII23，ロボカップ研究賞) ↩
谷口彰, エルハフィロトフィ, 萩原良信, 谷口忠大, "記号創発ロボティクスにおける場所概念の形成と応用", システム／制御／情報, 2022, 66 巻, 4 号, p. 133-138. ↩

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up