0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

マルチエージェント深層強化学習

Last updated at Posted at 2025-01-31

ここではざっくりマルチエージェントAIについて紹介したいと思います。

導入

マルチエージェントシステム

まずマルチエージェントシステムについて紹介します。

マルチエージェントシステムとは複数のロボット(あるいは人)がそれぞれ自律的に意思決定し、相互に影響を及ぼし合うようなシステムのことです。ロボット(エージェント)が複数(multiple)いるからマルチエージェントという名前がついています。
例えば、サッカーは11エージェントvs11エージェントのスポーツと言えます。人間はトレーニングを積んでいくと、チームメートの動きを見て自分がどう動けばいいかを自律的に判断できるようになります。例えば、どこら辺のポジションを取ればいいのか、誰にパスを出せばよいのか、などです。

また、株式市場もマルチエージェントシステムといえます。各投資家がエージェントにあたり、それぞれ自分の利益だけを最大化しようとします。

マルチエージェントシステムへの期待

このように、チームで協力したり、まわりと競い合って自己の利益を追求する現象は日常生活にあふれています。
これをロボットにもやらせてみよう、というのがマルチエージェントシステム研究の出発点です。つまり、ロボットが協力し合ってタスクを解いたり、群衆のなかで上手く他者を出し抜いて生き残ったりすることをさせてたい、ということです。

機械学習とマルチエージェントシステム

マルチエージェントシステムを考える上で機械学習なしで語るのは難しいでしょう。

以下では、「機械学習×マルチエージェントシステム」について議論します。その中でも特にエージェントどうしが協力し合って共通の課題を解くCooperative Settingについて見ていきます。

難しさとその面白さ

ロボットにチームワークを教えこむとなると、以下のよう難しさ(面白さ)があります。

  • 自分のプレー選択がどれくらいチームのパフォーマンスに影響しているかを定量的に評価するには?
  • 計算時間を抑えるために各エージェントの意思決定方法(強化学習でいう方策)を同時に更新した場合、チームワークのバランスが崩れたりしないか?サッカーでいうと、ボールホルダーはパスを選択したが、周りの味方はドリブルを開始すると思って反応できなかった、などがその例。

研究分野

機械学習×マルチエージェントの分野として代表的なものを二つ紹介します。

マルチエージェント深層強化学習

深層学習を使ってAIが自律的に賢くなることを研究する深層強化学習 (Deep Reinforcement Learning)はよく知られています。これを拡張し, 複数のエージェントが同時にそれぞれ自律的に賢くなる方法論を研究するマルチエージェント深層強化学習というものがあります。2017年あたりから海外を中心に発展を遂げてきている分野です。

代表的なアルゴリズムに以下のようなものがあります。

  • QMIX [ICML2018]
  • Multi-Agent Proximal Policy Optimization (MAPPO) [NeurIPS2022]
  • Multi-Agent Transformer [NeurIPS2022]
  • Heterogeneous-Agent Soft Actor-Critic (HASAC) [ICLR2024]

このブログでは以上のようなアルゴリズムを今後紹介していきます。

LLM×マルチエージェント(「心の理論」)

人間はチームワークをするとき、他所の行動やその意図を推測します。発達心理学で「サリーとアン課題」というものがありますが、他者の視点でものを考えることに関する研究は様々な分野に及びます。

人が他者の心の状態、目的、意図、知識、信念、志向、疑念、推測などを推測する直観による心の機能のことを「心の理論」と呼びます(wikipedia引用)。コンピュータソフトが「心の理論」を手に入れるかは非常に興味深い問いです。近年、LLM(Large Language Model)が「心の理論」に近いものを手に入れられるかどうか、という研究などが出ています。例えば、Li et al. (EMNLP2023)がそれにあたります。

他にも、以下の例のようにLLM×マルチエージェントの論文がちらほら出ています。これらについても、今後このブログで扱っていきたいと思います。

  • Huao et al. Language Grounded Multi-agent Reinforcement Learning with Human-interpretable Communication. NeurIPS, 2024.
  • Zhang e al. Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration. arXiv:2405.14314.

日本における研究動向

マルチエージェント深層強化学習の研究だと、海外の研究チームではJakob N. Forester先生の研究チームやShimon Whitesonなどが有名です。

海外に比べると, 日本ではマルチエージェントAI、特にマルチエージェント深層強化学習の研究はあまり盛んに行われていないように思われます。「マルチエージェントシステム」と打つと上に出てくるのは豊田中央研究所のホームページなどがあります。 「マルチエージェント深層強化学習」と打つと元松尾研究室の今井さんのスライドが出てきます。 いずれにせよ、マルチエージェント深層強化学習やLLM×マルチエージェントAIを日本で専門にやっている研究者や研究チームは極めて少ないというのが現状だと思います。

最後に

ロボットどうしが協調・協力することは今後ますます重要になってくると思います。 すでにスマート倉庫などでは複数のAGV(無人搬送車)が協調して物を運んでいます。街中にロボットが分散して物流を担う時代がやってくる未来もそう遠くないと思います。 ドローンやトラック, 配送ロボットが組み合わさってマルチモーダルな物流網の実現がカギになります。マルチエージェントシステムは将来の物流網の要となる技術になることが予想されます。
それ以外にも, 

チームスポーツの新しい戦術の発明
戦地でのロボット(ドローン、トラック、ロボット)の協調行動
複数台ロボットの巡回パトロール
会社内での複数部門のAIの協調(例えば、生産計画AIと配送計画AIの協調によるサプライチェーン最適化など)

など、応用が多岐にわたります。

今後このブログではマルチエージェントAIについて発信し続けたいと思います。

次回もお楽しみに。

このブログは株式会社EfficiNet Xのテックブログです。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?