マルチエージェント深層強化学習

Last updated at 2024-12-16Posted at 2024-01-10

マルチエージェントシステムについて興味があるので, それについて書いていこうと思う.

導入

ここではマルチエージェントシステムの簡単な紹介を行う. その後, 大きく分けて3つ問題設定が考えられることを述べる.

マルチエージェントシステムとは

マルチエージェントシステムとは複数のロボット（あるいは人）がそれぞれ自律的に意思決定し, 相互に影響を及ぼし合うようなシステムのことである. ロボット（エージェント）が複数（multiple）いるからマルチエージェントという名前がついている.
例えば, サッカーは11人対11人のスポーツであって, それぞれのチームが自分のゴールを守りながら相手ゴールを目指してプレーする. 各プレーヤーはチームメートの動きを見て自分がどう動けばいいかを判断する. 人間は不思議とトレーニングを積むとなんとなくどこら辺のポジションを取ればいいか, 誰にパスを出せばよいかが分かってくるがロボットの場合だとどうだろうか. 自分のプレー選択がどれくらいチームのパフォーマンスに影響しているかを定量的に評価するのは意外と難しい. また, 機械学習などでは計算時間の観点から各ロボットが同時に（並列に）自分のプレーを改善する場合が多いが, あるロボットが自分のプレーの「くせ」を改善したら, 他の全プレーヤーが影響を受けるので, 改善するにしてもどう改善するか慎重にならなければいけない.

マルチエージェントシステムの各種問題設定

サッカー以外にもマルチエージェントシステムの例がある. ポーカーのように同じ卓に複数のプレーヤーがいてそれぞれ利益を最大化させようとしている. これは「チーム」という概念がなく全プレーヤーが敵同士なので"competitive setting"という名前がついている.
一方で, 工場内の自動搬送ロボットは敵という概念はなく, いかにロボットどうしで協力しながら物を効率よく運んだり, 衝突を回避するかが重要である.　このような問題設定を"cooperative setting" と呼ぶ.
それらのどちらにも該当しないものを"mixed setting"と呼ぶ. サッカーはうまくチームプレーしながら相手チームに勝たなければいけないので"mixed setting"の一つである. また, 例えばレーシングゲームでは競争ではあるものの狭い道を通るときは敵と協力しないとクラッシュしてどちらもレースから脱落するケースがある. これは基本的にはcompetitiveだが、たまにcooperativeという意味で"mixed setting"と言える.

※私は複数のロボットが協力して一つのタスクを効率よく処理したり、敵に勝つことに興味があるので"cooperative setting"に興味がある.

マルチエージェントシステムの研究動向

ここではマルチエージェントシステム研究に関する今後の流れを予想する. 結論から言うとマルチエージェント深層強化学習 (Multi-Agent Deep Reinforcement Learning)という分野が今後ますます大きくなると思っている. 最後に日本ではMADRLの研究があまり盛んでないことを述べる.

マルチエージェントの研究に対する個人的な予想

昨今の最前線のAI研究により, ネット上の大量のデータを使ったり, 現実に近いシミュレーション環境を用いることで, コンピュータに人間のように知的なタスクをさせることが可能になってきた.
マルチエージェントシステムもこうしたAI研究と無縁ではない. たしかに, いかにロボットに「協力・協調」を教え込むかをゲーム理論のノウハウを使って数学的・理論的にアプローチする方法もあるが, 現実に近いシミュレーション環境を用意して, コンピュータの圧倒的な演算能力で学習を回すアプローチが今後も主流になっていくと思われる.

Multi-Agent Deep Reinforcement Learning

深層学習を使ってAIが自律的に賢くなることを研究する深層強化学習 (Deep Reinforcement Learning)という分野がある. これを拡張し, 複数のエージェントが同時にそれぞれ自律的に賢くなる方法論を研究する**Multi-Agent Deep Reinforcement Learning (MADRL)**という分野がある. MADRLは2017年あたりからAIの主流ではないにせよ, ひそかに発展を遂げてきている分野である.

日本における動向

海外に比べると, 日本ではMADRLがあまり盛んに行われていないように思われる. 海外のMADRLの研究チームというとJakob N. Forester先生の研究チームやShimon Whitesonの研究チームだろう.
日本はというと, 「マルチエージェントシステム」と打つと一番上に出てくるのは豊田中央研究所のホームページである. 「マルチエージェント深層強化学習」と打つと松尾研究室の今井さんの紹介スライドが出てくる. おそらく日本で今一番MADRLに詳しいのは今井さんなのではなかろうか.
いずれにせよ, MADRLに限定すると日本ではそれを専門にやっている研究者や研究チームは極めて少ないという現状である.

最後に

最後にマルチエージェントシステムの可能性/重要性とこのブログ記事で何を発信していくかを述べる.

マルチエージェントシステムの重要性

ロボットどうしが協調・協力することは今後ますます重要になってくると思う. すでにスマート倉庫などでは複数のAGV（無人搬送車）が協調して物を運んでいる. いずれ街中にロボットが分散して物流を担う時代がやってくるだろう. ドローンやトラック, 配送ロボットが組み合わさってマルチモーダルな物流網の実現がカギになる. マルチエージェントシステムは将来の物流網の要となる技術になることが予想される.
それ以外にも, 複数のドローンや衛星を通信させてチームプレーができるようにしたり, サッカーやラグビーなどのチームスポーツの新しい戦術を考案したりと多くの可能性を秘めいている.

このブログで何をするか

今後このブログではMADRLについて論文紹介と（余裕があれば）実験の実装をしてみたいと思う. MADRLについての日本語の記事が極端に少ないので, 良質な記事を心がけて書いていきたいと思う.
論文紹介記事を書くことがゴールではなく, 自分で論文を書いて日本のMADRL研究の第一人者になることが目標である.
また, 自分で立ち上げた会社（株式会社EfficiNet X）の方で社会実装にも取り組んできたいと思う.

次回予告

次回はMADRLの初期の論文であるFoerstar et al. Counterfactual Multi-Agent Policy Gradients. AAAI, 2018.を紹介しようと思う.

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up