Abstract
大規模な言語モデルは、複雑なタスクを実行できることが実証されています。しかし、ロボット工学の問題など、実世界での一般的な推論を可能にするためには、groundingという課題があります。我々は、実世界の連続的なセンサーモダリティを直接言語モデルに組み込み、それによって言葉と知覚の間のリンクを確立する、体現型言語モデルを提案します。我々の言語モデルへの入力は、視覚、連続状態推定、およびテキスト入力エンコーディングを織り交ぜたマルチモーダル文です。我々は、これらのエンコーディングを、事前に訓練された大規模言語モデルと組み合わせて、連続的なロボット操作の計画、視覚的な質問応答、キャプションを含む複数の具現化タスクに対してend-to-endで訓練します。また、インターネットスケールの言語、視覚、視覚言語ドメインにまたがる多様な共同訓練から、モデルが恩恵を受けるというポジティブトランスファーを示していることも示しています。私たちの最大のモデルであるPaLM-E-562B(パラメータ562B)は、ロボットタスクで訓練されていることに加え、OK-VQAで最先端の性能を持つ視覚言語の汎用モデルであり、スケールが大きくなっても汎用的な言語能力を維持します。
入力:テキスト、画像、(ニューラル3D表現、状態)
出力:テキスト
既存の画像キャプショニング手法と異なり、テキストの途中に画像を自然に入力するシンプルなモデルアーキテクチャとなっています。これによって、ロボット操作やモーションプランニング、VQAなどのさまざまなタスクを単一モデルで行うことが可能になります。
アーキテクチャは、画像をViTでエンコードしたのち、さらに affine変換 $\psi$ でトークン埋め込みと同じサイズのベクトルにして上画像<img>のように入力します。
LLM frozen(LLMのパラメータを凍結) や、LLM frozenかつViTのfrozen ($\psi$だけ更新)などの学習方法比較や、用いるデータを single robot (単一ドメイン) や full mixture (全データ) で比較したりしています。
LLMの性能を落としたくないのでパラメータの凍結をするという側面があるのですが、モデルサイズを大きくするとLLMのパラメータを更新しても性能低下を抑えられたそうです。
PaLM-E-562Bは、ゼロショットでマルチモーダルな思考連鎖推論を行い、画像から視覚的に条件付けられたジョークを言うことができ、知覚、視覚に基づく対話、計画など、ロボット関連のマルチモーダル情報能力を示しています。また、PaLM-Eは、単一画像のプロンプトで訓練されただけにもかかわらず、複数画像のプロンプトにゼロショットで汎化します。また、PaLM-Eは、手書きの数字がテキストで挿入された画像があれば、計算を行うことができます。さらに、Zeng et al., 2022で示されたものと同様に、temporally-annotated egocentric vision(右下に説明あり)に対する質問と回答をゼロショットで行うことができ、end-to-endのすべてを1つのモデルで行うことができます。
Introduction
大規模言語モデルの発展について
大規模言語モデル(LLM)は、対話(Glaese et al., 2022; Thoppilan et al., 2022)、step-by-step推論(Wei et al., 2022; Kojima et al., 2022)、数学問題解決(Lewkowycz et al., 2022; Polu et al., 2022)、コード記述(Chen et al., 2021a)などの様々な領域で強力な推論能力を示しています。
テキストだけでなく、画像も取り入れるといい
しかし、実世界での推論のためのこのようなモデルの限界は、groundingの問題です。膨大なテキストデータでLLMを訓練すると、我々の物理世界に関連する表現が得られるかもしれませんが、コンピュータビジョンやロボティクスにおけるより広い範囲の grounded real world problem を解決するには、それらの表現を現実世界の視覚や物理センサモダリティに結びつけることが不可欠です(Tellex et al, 2020)。
LLMの情報を用いてロボットを学習させる手法も出ているが、それでは不十分
先行研究(Ahn et al., 2022)は、LLMを活用してロボットポリシーやアフォーダンス関数との連携を行いますが、LLM自体がテキスト入力しか提供されないという点で限界があり、シーンの幾何学構成が重要である多くのタスクには不十分です。さらに、我々の実験では、視覚的質問応答(VQA)のような典型的な視覚言語タスクで訓練された現在の最先端の視覚言語モデルは、ロボット推論タスクを直接解決できないことを示します。
提案法は画像や状態推定をテキストと共に埋め込み、end-to-endで学習する
本論文では、具現化されたエージェントのセンサーモダリティからの連続入力を直接取り込むことで、言語モデル自身が実世界での逐次的な意思決定のために、より根拠のある推論を行うことを可能にする embodied 言語モデルを提案します。画像や状態推定などの入力は、言語トークンと同じ潜在埋め込みに埋め込まれ、テキストと同じようにTransformerベースのLLMの自己注意層で処理されます。我々は、エンコーダを通して連続入力を注入する、事前に訓練されたLLMから始めます。これらのエンコーダは、end-to-endで訓練され、低レベルのポリシーを条件付けることによって具現化されたエージェントが解釈できる、あるいは具現化された質問に対する答えを与えることができる、自然テキストの観点から連続的な決定を出力します。我々は、様々な設定においてこのアプローチを評価し、異なる入力表現(例えば、視覚入力に対する標準的なViTエンコーディングとオブジェクト中心のViTエンコーディング)の比較、エンコーダの訓練中に言語モデルのfreezingとfinetuningの比較、複数のタスクの共同訓練による転移の可能性の調査を行います。
マルチタスクを行うと、個々のタスクで訓練するより性能が向上した
本アプローチの幅を調べるため、3つのロボット操作領域(うち2つは実世界で閉ループ)、VQAや画像キャプションなどの標準的な視覚言語タスク、および言語タスクで評価を行った。その結果、マルチタスクトレーニングは、個々のタスクでモデルをトレーニングするよりも性能が向上することが示された。このようなタスク間の移行は、ロボットタスクの高いデータ効率につながることを示す。例えば、一握りの学習例からの学習成功を大幅に向上させ、さらに、新しいオブジェクトの組み合わせや未見のオブジェクトに対するone-shotまたはzero-shot汎化を実証することができる。
PaLMとViTを統合したモデルアーキテクチャ。単一画像の訓練でCoTや多画像推論など様々な能力を示す。
我々はPaLM-Eを562Bパラメータまでスケールアップし、540B PaLM (Chowdhery et al., 2022) LLMと22B Vision Transformer (ViT) (Dehghani et al., 2023) を統合して、我々の知る限り、現在報告されている最大の視覚言語モデルとする。PaLM-E-562Bは、OK-VQA (Marino et al., 2019)ベンチマークにおいて、タスク固有のfinetuningに依存することなく、最先端の性能を達成しました。今回の実験の焦点ではありませんが、PaLM-E-562Bは、単一画像の例のみで訓練されているにもかかわらず、ゼロショット・マルチモーダル思考連鎖(CoT)推論、少数ショット・プロンプティング、OCRなし数学推論、多画像推論などの幅広い能力を示していることもわかりました(図2)。ゼロショットCoT(Kojima et al., 2022)は、もともと言語のみの概念であり、タスクに特化したプログラム(Zeng et al., 2022)を用いてマルチモーダルデータ上で示されているが、我々の知る限り、end-to-endモデルを介してではありません。
主な貢献を要約は以下となります。
- マルチモーダル大規模言語モデルの訓練にembodiedデータを混ぜることで、汎用の転移学習型多体系意思決定エージェントを訓練できることを提案・実証します。
- 現在の最先端汎用視覚言語モデル(ゼロショット)は、embodied推論問題にうまく対処できないが、効率的なembodied推論器でもある有能な汎用視覚言語モデルを訓練することが可能であることを示す。
- 最適な学習方法を研究するために、ニューラルシーン表現やマルチモーダルトークンのエンティティラベリングといった新しいアーキテクチャのアイデアを導入しています。
- PaLM-Eをembodied推論機とすることに加えて、PaLM-Eが定量的にも有効だと示す
- 言語モデルのサイズを拡大することで、壊滅的な忘却を抑えてマルチモーダルfinetuningを行うことを実証する。