マルチエージェント特集② (1/N) LLMのマルチエージェントAIへの応用 ~Theory of Mind~

Last updated at 2024-12-11Posted at 2024-12-11

この記事ではLLMがマルチエージェントシステムでどのように応用されうるかを提案した論文を紹介します。
EMNLPという自然言語処理分野の国際学会で発表された
Li et alによる"Theory of Mind for Multi-Agent Collaboration via Large Language Models"を紹介します。

心の理論（Theory of Minds）

人間はチームワークをするとき、相手がどんな状況にあって、どんな行動をしようとしているかを推測します。例えば、サッカー選手は見方がどのような意図で走ったりドリブルをしているかを無意識に察知しているはずです。味方の意図に合わせて自分の行動（スペースに走ったり、ボールを要求したり）を決めます。逆にパスがつながらなかったときは互いの意図を推測するのに失敗したということでしょう。他者が何を考えているか、を研究するのは発達心理学などでも研究されてきたことであり（例：「サリーとアン課題」）、AIエージェントも人間のように他者の思考をうまく推測できるかは非常に面白いトピックであり、応用は多岐にわたります。

信念状態

心の理論では、あるエージェントが考えていることを「信念状態」といいます。たとえば、サッカーの例だと、「このスペースに向かってドリブルすればチャンスになる」とか「バックパスをした方が相手が前がかりになってスペースがうまれやすい」などです。サッカーに限らず人間は何をやるにしても何かしらの意図や予測をして行動を決定しています。また、部分観測マルコフ決定過程では、「信念状態は実際の(真の)状態に今どのくらいいるかを表す確率」のことです。
言うまでもなく、チームワークをするときは相手の信念状態をうまく予測しなければいけません。相手の信念状態は
さて、LLMエージェントにチームワークをさせるにはどうすればよいでしょうか。本論文では以下の3点に着目しています。

0次ToM (Theory of Mind)
推論LLMエージェントが自身の信念状態を明確に表現できる能力があるか
1次ToM推論
エージェントが他者の信念状態を推定できるかどうか
2次ToM推論
他者が自身の精神状態について何を考えているかを推論できるかどうか

実験設定

本論文で扱っている問題設定を少し説明します。読み飛ばして大丈夫です。雰囲気としては、エージェントが3人いて、それらが爆弾処理をします。エージェントどうしは爆弾があとどれくらいで爆発しそうであるかや、その爆弾のワイヤーを切るかなど何かしらのアクションを起こします。

細かい問題設定

3人のエージェント（Alpha、Bravo、Charlie）が未知の環境に分散しています。色つきの爆弾の位置を特定し、安全に解除することを目的としたチームです。各爆弾は3色のいずれかで、それぞれの色は爆弾の``フェーズ''を表します。解除には正しい順序のワイヤーカッターが必要です。
チームメンバーはそれぞれ異なる色のカッターを持ってゲームを始めます。
環境は連結グラフとして概念化され、5個のノードは廊下（エッジ）でつながった5個の部屋を表します。各ラウンドにおいて、エージェントは以下の3つの行動から一個選択します。

5個の部屋のうちの1つに移動する
現在の部屋にある爆弾のフェーズを検査する
3個のワイヤーカッターのうちの1つを使用する

エージェントの観測は、現在の部屋の中身とエージェントのステータスに限定されます。チームのスコア、現在の部屋の中身、チームメイトの位置、利用可能なツールについては、定期的に更新されます。$x$段階の爆弾が解除されると、チームには$10 \times x$ポイントが与えられます。

図１（論文から引用しています）

LLM エージェント

本論文では、チームワークを行うにあたってエージェントが信念状態を明示的に保持するのが望ましいといっています。図１の例では、AlphaがCommunication MessageとしてBravoから受け取ったメッセージをもとに自分の信念を更新しています。ここで信念とは環境についての情報と言っていいかもしれません。
ゲームの得点はLLMエージェントが信念（Belief）状態を明示的に保持している場合の方が高いです。

ちなみにMAPPOはマルチエージェント深層強化学習の有名な手法です。

創発現象および0, 1, 2次ToM

チームワークが必要な今回の爆弾処理タスクですが、創発現象ともとれる現象が確認されています。具体的には、ある一人のエージェントがリーダーとなり、他の二人に指示を送ります。下の図上部では、AlphaがBravoとCharlieに指示を送り, 二人が指示通りに行動しているのが分かります。
また下の図下部を見ると、LLMエージェント(+信念状態)は0, 1, 2次ToMを保持しているといえそうです。

終わり

LLMが信念状態をもとにチームワークを実現できるかは興味深い問題です。
次回はLLMエージェントとしてオープンソースのLlama 3を用いて、爆弾処理とは別のタスクでどうなるかを見ていきます。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up