これまで、私たちはLLMベースのマルチエージェントシステム(MAS)の基礎となる概念、個々のエージェントを構成する要素、そして実際にシステムを構築するためのフレームワークや技術要素について詳しく見てきました。理論と構築手法を学んだ今、いよいよその真価が問われる応用分野へと目を向ける時です。LLMという強力な知能コアを持つエージェントたちが、互いに連携し、協調することで、一体どのような課題を解決し、どのような新しい価値を生み出すことができるのでしょうか?
ここでは、LLM-MASがその能力を発揮し始めている、あるいは大きな可能性を秘めている具体的な応用分野を探求します。複雑な問題解決から、社会現象のシミュレーション、ソフトウェア開発の変革、ゲーム体験の向上、そして人間との新たな協調関係の構築に至るまで、その応用範囲は驚くほど多岐にわたります。これらの事例を通じて、LLM-MASが単なる技術的な好奇心の対象に留まらず、現実世界の様々な領域で具体的なインパクトを与え得るポテンシャルを秘めていることを明らかにしていきましょう。
1. 集合知によるブレークスルー:複雑なタスク解決への挑戦
LLM-MASの最も基本的な、そして強力な応用分野の一つが、複雑なタスク解決です。単一のエージェント(あるいは単一の人間)では手に負えないような難題に対して、複数のエージェントがそれぞれの知識や能力、視点を持ち寄り、協力して取り組むことで、より高度で信頼性の高い解決策を導き出すことが期待されます。
1.1. 知識のギャップを埋める:情報非対称な質問応答
現実世界の問題解決において、必要な情報が複数の場所に散在していたり、関係者がそれぞれ異なる情報しか持っていなかったりする情報非対称な状況は頻繁に発生します。このような状況下で正確かつ包括的な回答を得ることは、単一の情報源や知識ベースに頼るだけでは困難です。
ここに、LLM-MASが活躍する余地があります。異なる情報や専門知識を持つように設計された複数のLLMエージェントが、互いにコミュニケーションを取り合い、知識を共有・統合することで、個々のエージェントだけでは生成できなかった質の高い回答を生み出すことができるのです。
例えば、AutoGenフレームワーク を利用して、質問応答を担当するエージェント、特定のデータベースへのアクセス権を持つ知識検索エージェント、そして得られた情報を専門的な観点から解釈・検証する専門知識エージェントを構築することが考えられます。これらのエージェントが会話を通じて連携し、それぞれの役割を果たすことで、あたかも人間の専門家チームが議論を重ねて結論を出すかのように、信頼性の高い回答を生成することが可能になります。さらに、Optimaのようなフレームワーク は、このようなマルチエージェント間のコミュニケーション効率とタスク遂行能力そのものを最適化することを目指しており、より少ないやり取りで的確な情報を交換し、効率的に回答を生成するシステムの実現に貢献する可能性があります。
1.2. 推論の壁を超える:多角的な検証と構造化
複雑な問題を解決するには、しばしば多段階にわたる推論が必要となります。しかし、LLMといえども、単独では論理的な誤りや見落としを犯す可能性があります。特に、長大な推論プロセスや、多様な知識源からの情報を統合する必要がある場合、その難易度はさらに高まります。
LLM-MASは、この推論の壁を超えるための有効なアプローチを提供します。一つは、複数LLMによるピアレビューという考え方です。異なるLLMエージェント(あるいは同じLLMに異なる役割を与えたもの)が、互いの推論プロセスや中間結果を検証し、フィードバックを与え合うことで、推論の弱点や誤りを早期に発見し、修正することが可能になります 。これは、科学研究における査読プロセスや、ソフトウェア開発におけるコードレビューにも似た、集合知による品質向上のメカニズムです。Multi-Agent Debate (MAD) のような形式で、複数のエージェントが異なる視点から議論を行うことで、より頑健で信頼性の高い結論に至ることが期待できます。
もう一つのアプローチは、複雑な推論タスクそのものを構造化することです。前エントリで紹介したStateFlowパラダイム は、まさにこの目的のために設計されました。StateFlowは、推論プロセスを明確な状態と遷移に分解し、各状態において実行すべきアクション(LLM呼び出しやツール利用)を定義します。これにより、例えば「仮説生成」「データ収集」「仮説検証」「結論導出」といった推論の各ステップを、異なるエージェント(あるいは特定の指示を受けたLLM)が担当し、全体として統制の取れた形で推論を進めることが可能になります。このようにタスクを構造化することで、LLMは各ステップに集中でき、より効率的かつ正確な推論を行うことが期待できるのです。
2. 社会を映す鏡:シミュレーションによる現象の探求
LLM-MASの応用は、具体的なタスク解決だけに留まりません。LLMが持つ人間らしい言語能力や行動生成能力を活用することで、社会現象のシミュレーションという、従来にはない可能性が開かれています。個々のLLMエージェントに特定の性格や役割、目標を与え、仮想的な環境で相互作用させることで、現実の社会で見られるような複雑な現象がどのようにして創発するのかを探求することができるのです。
2.1. 創発する社会行動:Generative AgentsとSocial Simulacra
この分野における画期的な研究として、Generative Agents が挙げられます。この研究では、LLMを搭載した25体のエージェントが「Smallville」という仮想タウンで生活する様子をシミュレーションしました。各エージェントは、記憶ストリーム (Memory Stream) に経験を記録し、内省 (Reflection) を通じて高次の気づきを得て、それに基づいて計画 (Planning) を立て、行動します。驚くべきことに、個々のエージェントには比較的単純な初期設定しか与えられていないにも関わらず、例えば「バレンタインデーのパーティーを開く」といった情報がエージェント間で自然に伝播し、協力して準備を進めるといった、創発的な社会行動が観察されました。これは、LLM-MASが人間社会の複雑なダイナミクスをモデル化し得るポテンシャルを示唆しています。
さらに、Social Simulacra のような研究では、より大規模な仮想コミュニティ(数千〜数万のエージェント)を構築し、投稿や返信といったソーシャルメディア上の行動や、時には反社会的な行動までもシミュレーションすることが試みられています。
2.2. 社会科学・経済学への応用
LLM-MASを用いた社会シミュレーションは、社会科学や経済学の研究に新たなツールを提供します。
社会理論の検証と発見
仮想社会におけるエージェントの行動を観察することで、既存の社会理論の妥当性を検証したり、これまで見過ごされてきた新たな社会パターンを発見したりできる可能性があります。
複雑な社会プロセスの理解
情報の拡散、世論形成、協力行動の発生、資源配分の問題など、現実世界では実験が困難な複雑な社会プロセスをシミュレーションし、そのメカニズムを解明する手がかりを得ることができます。
政策・制度設計の支援
新しい政策や社会制度を導入した場合に、社会にどのような影響が現れるかを事前にシミュレーションし、その効果や潜在的な副作用を評価することができます。これにより、よりエビデンスに基づいた政策立案が可能になるかもしれません。
経済活動のシミュレーション
LLMエージェントに経済主体(消費者、生産者、投資家など)としての役割や選好を与え、市場メカニズムや経済政策の影響をシミュレーションすることも可能です。マクロ経済の動態、金融市場の挙動、情報が経済に与える影響などを、ボトムアップ的なアプローチで探求することができます。
もちろん、LLMエージェントが人間の行動をどこまで忠実に模倣できるのか、シミュレーション結果の妥当性をどう評価するかといった課題は残ります。しかし、LLM-MASが社会現象を理解するための強力な「計算社会科学の実験室」となる可能性は、非常に大きいと言えるでしょう。
3. 開発プロセスを変革する力:ソフトウェアエンジニアリングへの応用
ソフトウェア開発は、複雑な要件、絶え間ない技術の変化、そして多くの人々の協調作業を必要とする、知識集約的なプロセスです。LLM-MASは、このソフトウェア開発ライフサイクル(Software Development Life Cycle, SDLC) の様々な段階において、開発の効率性、品質、そしてセキュリティを向上させるための強力なツールとなる可能性を秘めています。
3.1. SDLCを加速する協調開発
要求分析から設計、実装(コーディング)、テスト、デプロイ、保守に至るまで、SDLCのほぼ全てのフェーズでLLM-MASの応用が考えられています。個々のLLMエージェントが特定の専門知識や役割(例:要件アナリスト、アーキテクト、フロントエンド開発者、バックエンド開発者、テスター、セキュリティ専門家)を担い、互いに連携することで、開発プロセス全体をよりスムーズかつ迅速に進めることが期待されます。
3.2. コード生成の新たな地平
LLMによるコード生成能力は目覚ましいものがありますが、LLM-MASはこの能力をさらに拡張します。
専門知識の連携
前述のように、異なる専門分野(例:UIデザイン、データベース設計、API連携、アルゴリズム実装、セキュリティ対策)に特化したエージェントが協調することで、単一のLLMでは生成が難しい、より複雑で高品質、かつ安全なコードを生成することが可能になります。
フレームワークの活用
AutoGen 、ChatDev 、MetaGPT といったフレームワークは、まさにこのようなマルチエージェントによる協調的なソフトウェア開発を支援するために設計されています。これらのフレームワークは、エージェント間のコミュニケーション(チャット)、タスクの分解、標準化された運用手順(SOP)の導入などを通じて、要件定義から設計、実装、テストに至るプロセスを構造化し、自動化します。例えば、ChatDevは「チャットチェーン」を用いて開発プロセスを管理し、MetaGPTは「アセンブリラインパラダイム」でタスクを効率的に分担します。
自己協調アプローチ
複数の独立したエージェントを用意する代わりに、単一のLLMに複数の専門家のペルソナ(役割)を与え、内部的に議論・協調させながらコードを生成する「自己協調」というアプローチも研究されています。
3.3. 品質とセキュリティの向上:テストと脆弱性検出
ソフトウェアの品質とセキュリティを確保するためには、徹底的なテストと脆弱性の検出が不可欠です。LLM-MASは、これらの領域においても力を発揮します。
テストケース生成
LLMは、コードや仕様書を理解し、それに基づいてテストケースを生成する能力を持っています。LLM-MASを用いることで、例えば、脆弱性のあるライブラリ依存関係の影響を評価するためのセキュリティテストや、特定のソフトウェアセキュリティバグを再現するためのテストケースを自動生成することが考えられます。異なるテスト戦略(境界値分析、ファジングなど)や観点(正常系、異常系)を持つエージェントが協力することで、より網羅的で効果的なテストスイートを生成できる可能性があります。
脆弱性検出
LLMは、大量のコードデータから学習したパターン認識能力を活用して、ソースコード中に潜む潜在的な脆弱性を検出することに優れています。複数のエージェントが、異なる静的分析ツール(SAST)の結果、既知の脆弱性データベース(CVE)、セキュリティコーディングガイドラインなどを参照し、多角的にコードを分析することで、単一のツールやLLMでは見逃しがちな脆弱性を発見できる可能性が高まります。LLift のように、静的分析ツールとLLMを連携させ、特定のエラータイプや広範なコードベースに対応する自動エージェントも開発されており、LLM-MASによる脆弱性検出の高度化が期待されます。
LLM-MASは、ソフトウェア開発における反復的で時間のかかる作業を自動化し、開発者がより創造的で本質的な課題に集中できるように支援することで、ソフトウェア開発の生産性と品質を新たなレベルへと引き上げる可能性を秘めています。
4. 仮想世界のリアリティを高める:ゲーム分野へのインパクト
ゲームの世界は、LLM-MASがその能力を発揮するもう一つの魅力的な舞台です。特に、複雑な戦略や多数のキャラクターとのインタラクションが求められるゲームにおいて、LLM-MASはプレイヤー体験を豊かにし、新たなゲームプレイの可能性を切り開くことが期待されています。
4.1. インテリジェントなアシスタント:戦略ゲームにおける新たな可能性
リアルタイムストラテジー(RTS)ゲームやターン制ストラテジーゲームなど、多くの戦略ゲームでは、プレイヤーは多数のユニットを同時に操作し、刻々と変化する戦況の中で複雑な意思決定を下さなければなりません。これは、特に初心者や、マイクロマネジメント(個々のユニットの細かな操作)が苦手なプレイヤーにとっては大きな負担となり得ます。
ここに、LLMベースのエージェントを人間のアシスタントとして活用するアイデアが生まれます。LLMアシスタントは、以下のような役割を担うことで、プレイヤーの負担を軽減し、より戦略的な思考に集中できるよう支援します。
- 情報収集・分析: ゲーム内の状況(ユニットの位置、資源状況、敵の動向など)をLLMが理解・分析し、重要な情報をプレイヤーに自然言語で報告する。
- 戦術提案: 現在の戦況やプレイヤーの目標に基づき、具体的な攻撃・防御プランやユニットの配置転換などを提案する。
- ユニット操作の代行: プレイヤーの大まかな指示(例:「この部隊で敵の側面を突け」)に基づき、LLMアシスタントが個々のユニットの移動や攻撃といったマイクロマネジメントを代行する。
- 戦略目標の実行支援: プレイヤーが設定した高レベルな戦略目標(例:「敵の本拠地を破壊する」)を達成するために、LLMアシスタントが自律的にサブタスクを計画・実行する。
4.2. BattleAgentBenchからの示唆
BattleAgentBench のような、LLMエージェントの協調性と競争能力を評価するためのベンチマークは、このようなLLMアシスタントの開発に重要な知見を提供します。BattleAgentBenchで評価されるエージェント間のコミュニケーション、協力、そして競争のメカニズムは、人間プレイヤーとLLMアシスタント、あるいは複数のLLMアシスタント(例:偵察担当、攻撃担当)間の連携を設計する上で参考になります。また、ベンチマークにおけるエージェントの役割設計は、ゲーム内で効果的に機能するアシスタントエージェントの能力や行動パターンを定義する上でのヒントを与えてくれます。
もちろん、リアルタイム性への対応、ゲーム固有知識の学習、プレイヤーの意図理解といった課題は存在しますが、LLM-MASは、将来的には戦略ゲームにおいてプレイヤーの頼れる「参謀」や「副官」のような存在となり、ゲームプレイに新たな深みをもたらす可能性を秘めています。
5. 人間とAIの新たな関係:協調による未来
これまで見てきた様々な応用分野の根底に流れる、そしておそらく最も重要となるテーマが、人間とLLMベースエージェントとの協調です。LLM-MASは、単に人間の作業を代替するだけでなく、人間とAIがそれぞれの強みを活かし、協力し合うことで、単独では成し得なかった成果を生み出す新しい働き方や問題解決のあり方を提示します。
5.1. シナジーを生むタスク分担
人間とエージェントが効果的に協調するための第一歩は、最適なタスク分担戦略を見つけることです。人間は創造性、常識、倫理観、複雑な状況への適応力に優れています。一方、LLMエージェントは情報処理速度、知識の網羅性、反復作業の正確性、持続力に長けています。
したがって、例えばソフトウェア開発プロジェクトにおいては、曖昧な要件の明確化や独創的なアイデア出し、最終的な品質判断は人間が担い、詳細設計の具体化、定型的なコード生成、網羅的なテスト実行はエージェントに任せる、といった役割分担が考えられます。重要なのは、それぞれの得意分野を活かし、互いの弱点を補い合うことで、1+1が2以上になるようなシナジーを生み出すことです。
5.2. フレームワークにおける人間参加
ChatDev のようなマルチエージェント開発フレームワークは、基本的には自律的なエージェント間の対話によって進行しますが、そのプロセスに人間が柔軟に参加できる仕組みを組み込むことが、効果的な協調には不可欠です。
- 指示と目標設定: 人間が高レベルな目標を設定し、エージェントに具体的な指示を与える。
- レビューとフィードバック: エージェントの生成物(設計案、コード、テスト結果など)を人間がレビューし、修正や改善のためのフィードバックを提供する。
- 意思決定支援: 技術的な選択やトレードオフが絡む場面で、人間がエージェントの分析結果を基に最終判断を下す。
- 知識の注入と例外処理: 人間の持つ専門知識や暗黙知をエージェントに伝えたり、予期せぬ問題が発生した際に人間が介入して解決策を導いたりする。
このように、人間が「ループの中に(Human-in-the-loop)」あるいは「ループを監督する(Human-on-the-loop)」形で関与することで、エージェントの自律性と人間のコントロールをバランスさせることが可能になります。
5.3. 自律性と人間意図の調和
Agent Workflow Memory (AWM)(参照) のように、エージェントが経験から自律的に学習し、行動パターンを獲得する能力は、効率化の観点からは非常に有益です。しかし、エージェントの自律性が高まるほど、その行動が人間の意図と常に一致するとは限らないという課題も生じます。
したがって、エージェントの自律的な学習能力を活かしつつも、人間の意図を正確に伝え、必要に応じて軌道修正できるメカニズムが重要になります。これには、より洗練された自然言語による指示方法、人間の暗黙知をエージェントに伝えるための工夫、そしてエージェントが自身の能力の限界を認識し、人間に助けを求められるような機能などが含まれます。
人間とLLMベースエージェントの協調は、単なるツールとしてのAI利用を超え、人間とAIが互いに学び合い、共に進化していく新しい関係性を築く可能性を示唆しています。
6. まとめ:広がる応用範囲と未来への期待
本章では、LLMベースのマルチエージェントシステム(LLM-MAS)が、複雑なタスク解決、社会シミュレーション、ソフトウェアエンジニアリング、ゲーム、そして人間との協調といった、驚くほど多様な分野でその応用可能性を広げていることを概観しました。
個々のLLMエージェントが持つ高度な言語理解・生成能力、推論能力、そして学習能力が、マルチエージェントシステムという枠組みの中で組み合わされ、互いにコミュニケーションし、協調することで、単一のLLMや従来のAIシステムでは達成困難であった課題に取り組む道が開かれつつあります。
もちろん、エージェント間の効果的な協調戦略の確立、スケーラビリティの問題、LLM固有のハルシネーションへの対策、そして倫理的な配慮など、解決すべき課題は依然として多く存在します。
しかしながら、LLM-MASが秘めるポテンシャルは計り知れません。今後の研究開発の進展により、さらに洗練されたフレームワーク、より高度な協調・学習メカニズム、そして人間とのより自然なインタラクションが実現されることでしょう。LLM-MASは、私たちの問題解決能力を高め、社会への理解を深め、そして創造性を拡張するための強力な触媒となり、様々な分野でイノベーションを加速していくことが期待されます。このエキサイティングな技術領域の進化を引き続き注視していく必要があります。
References
- Anne et al. (2024)Anne, T., Syrkis, N., Elhosni, M., Turati, F., Legendre, F., Jaquier, A., and Risi, S.Harnessing language for coordination: A framework and benchmark for llm-driven multi-agent control.arXiv preprint arXiv:2412.11761, 2024. https://arxiv.org/abs/2412.11761
- Anthropic (2024a)Anthropic, Dec 2024a.URL https://www.anthropic.com/research/building-effective-agents.
- Anthropic (2024b)Anthropic.Building effective agents, 2024b.URL https://www.anthropic.com/research/building-effective-agents.
- Bansal et al. (2024)Bansal, G., Wortman Vaughan, J., Amershi, S., Horvitz, E., Fourney, A., Mozannar, H., Dibia, V., and Weld, D. S.
Challenges in human-agent communication.Technical Report MSR-TR-2024-53, Microsoft, December 2024.URL https://www.microsoft.com/en-us/research/publication/human-agent-interaction-challenges/ - Bettini et al. (2024)Bettini, M., Prorok, A., and Moens, V.
Benchmark: Benchmarking multi-agent reinforcement learning.Journal of Machine Learning Research, 25(217):1–10, 2024. https://arxiv.org/abs/2312.01472 - Chakraborty & Purkayastha (2023)Chakraborty, B. and Purkayastha, D.
Servicenow: From startup to world’s most innovative company.IUP Journal of Entrepreneurship Development, 20(1), 2023. https://www.icmrindia.org/casestudies/catalogue/Leadership and Entrepreneurship/LDEN155.htm - Chan et al. (2023)Chan, C.-M., Chen, W., Su, Y., Yu, J., Xue, W., Zhang, S., Fu, J., and Liu, Z.
Chateval: Towards better llm-based evaluators through multi-agent debate.arXiv preprint arXiv:2308.07201, 2023. https://arxiv.org/abs/2308.07201 - Chen et al. (2024a)Chen, L., Davis, J. Q., Hanin, B., Bailis, P., Stoica, I., Zaharia, M., and Zou, J.
Are more llm calls all you need? towards scaling laws of compound inference systems.arXiv preprint arXiv:2403.02419, 2024a. https://arxiv.org/abs/2403.02419 - Chen et al. (2024b)Chen, W., Yuan, J., Qian, C., Yang, C., Liu, Z., and Sun, M.
Optima: Optimizing effectiveness and efficiency for llm-based multi-agent system.arXiv preprint arXiv:2410.08115, 2024b. https://arxiv.org/abs/2410.08115 - Cheng et al. (2024)Cheng, Y., Zhang, C., Zhang, Z., Meng, X., Hong, S., Li, W., Wang, Z., Wang, Z., Yin, F., Zhao, J., et al.
Exploring large language model based intelligent agents: Definitions, methods, and prospects.arXiv preprint arXiv:2401.03428, 2024. https://arxiv.org/abs/2401.03428 - Cobbe et al. (2021)Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., Plappert, M., Tworek, J., Hilton, J., Nakano, R., et al.
Training verifiers to solve math word problems.arXiv preprint arXiv:2110.14168, 2021. https://arxiv.org/abs/2110.14168 - Draucker et al. (2007)Draucker, C. B., Martsolf, D. S., Ross, R., and Rusk, T. B.
Theoretical sampling and category development in grounded theory.Qualitative health research, 17(8):1137–1148, 2007. - Du et al. (2023)Du, Y., Li, S., Torralba, A., Tenenbaum, J. B., and Mordatch, I.
Improving factuality and reasoning in language models through multiagent debate, 2023.URL https://arxiv.org/abs/2305.14325. - Glaser & Strauss (1967)Glaser, B. G. and Strauss, A. L.
The Discovery of Grounded Theory: Strategies for Qualitative Research.Aldine Publishing Company, 1967. - Gottweis et al. (2025)Gottweis, J., Weng, W.-H., Daryin, A., Tu, T., Palepu, A., Sirkovic, P., Myaskovsky, A., Weissenberger, F., Rong, K., Tanno, R., Saab, K., Popovici, D., Blum, J., Zhang, F., Chou, K., Hassidim, A., Gokturk, B., Vahdat, A., Kohli, P., Matias, Y., Carroll, A., Kulkarni, K., Tomasev, N., Guan, Y., Dhillon, V., Vaishnav, E. D., Lee, B., Costa, T. R. D., Penadés, J. R., Peltz, G., Xu, Y., Pawlosky, A., Karthikesalingam, A., and Natarajan, V.
Towards an ai co-scientist, 2025.URL https://arxiv.org/abs/2502.18864. - Guo et al. (2024a)Guo, T., Chen, X., Wang, Y., Chang, R., Pei, S., Chawla, N. V., Wiest, O., and Zhang, X.
Large language model based multi-agents: A survey of progress and challenges.arXiv preprint arXiv:2402.01680, 2024a. https://arxiv.org/abs/2402.01680 - Guo et al. (2024b)Guo, X., Shi, D., Yu, J., and Fan, W.
Heterogeneous multi-agent reinforcement learning for zero-shot scalable collaboration.arXiv preprint arXiv:2404.03869, 2024b. https://arxiv.org/abs/2404.03869 - Haji et al. (2024)Haji, F., Bethany, M., Tabar, M., Chiang, J., Rios, A., and Najafirad, P.
Improving llm reasoning with multi-agent tree-of-thought validator agent.arXiv preprint arXiv:2409.11527, 2024. https://arxiv.org/abs/2409.11527 - He et al. (2024a)He, J., Rungta, M., Koleczek, D., Sekhon, A., Wang, F. X., and Hasan, S.
Does prompt formatting have any impact on llm performance?arXiv preprint arXiv:2411.10541, 2024a. https://arxiv.org/abs/2411.10541 - He et al. (2024b)He, J., Treude, C., and Lo, D.
Llm-based multi-agent systems for software engineering: Vision and the road ahead, 2024b.URL https://arxiv.org/abs/2404.04834. - Hong et al. (2023)Hong, S., Zheng, X., Chen, J., Cheng, Y., Wang, J., Zhang, C., Wang, Z., Yau, S. K. S., Lin, Z., Zhou, L., et al.
Metagpt: Meta programming for multi-agent collaborative framework.arXiv preprint arXiv:2308.00352, 2023. https://arxiv.org/abs/2308.00352 - Horvitz (1999)Horvitz, E.
Uncertainty, action, and interaction: In pursuit of mixed-initiative computing.IEEE Intelligent Systems, 14(5):17–20, 1999. http://erichorvitz.com/ftp/mixedin.pdf - Jain et al. (2024)Jain, K., Synnaeve, G., and Rozière, B.
Testgeneval: A real world unit test generation and test completion benchmark.arXiv preprint arXiv:2410.00752, 2024. https://arxiv.org/abs/2410.00752 - Jiang & Lu (2018)Jiang, J. and Lu, Z.
Learning attentional communication for multi-agent cooperation.Advances in neural information processing systems, 31, 2018. https://arxiv.org/abs/1805.07733 - Jimenez et al. (2024)Jimenez, C. E., Yang, J., Wettig, A., Yao, S., Pei, K., Press, O., and Narasimhan, K. R.
SWE-bench: Can language models resolve real-world github issues?In The Twelfth International Conference on Learning Representations, 2024.
URL https://openreview.net/forum?id=VTF8yNQM66.
https://arxiv.org/abs/2310.06770 - Kapanipathi et al. (2020)Kapanipathi, P., Abdelaziz, I., Ravishankar, S., Roukos, S., Gray, A., Astudillo, R., Chang, M., Cornelio, C., Dana, S., Fokoue, A., et al.
Question answering over knowledge bases by leveraging semantic parsing and neuro-symbolic reasoning.arXiv preprint arXiv:2012.01707, 2020. https://www.academia.edu/68569473/Question_Answering_over_Knowledge_Bases_by_Leveraging_Semantic_Parsing_and_Neuro_Symbolic_Reasoning
https://arxiv.org/abs/2012.01707 - Kapoor et al. (2024)Kapoor, S., Stroebl, B., Siegel, Z. S., Nadgir, N., and Narayanan, A.
Ai agents that matter, 2024.URL https://arxiv.org/abs/2407.01502. - Khandkar (2009)Khandkar, S. H.
Open coding.University of Calgary, 23(2009):2009, 2009. - Khattab et al. (2023)Khattab, O., Singhvi, A., Maheshwari, P., Zhang, Z., Santhanam, K., Vardhamanan, S., Haq, S., Sharma, A., Joshi, T. T., Moazam, H., Miller, H., Zaharia, M., and Potts, C.
Dspy: Compiling declarative language model calls into self-improving pipelines, 2023.URL https://arxiv.org/abs/2310.03714. - Lalitha et al. (2018)Lalitha, A., Javidi, T., and Sarwate, A. D.
Social learning and distributed hypothesis testing.IEEE Transactions on Information Theory, 64(9):6161–6179, 2018. https://arxiv.org/abs/1410.4307 - LangChain (2024)
LangChain.Langgraph, 2024.URL https://www.langchain.com/langgraph. - Li et al. (2023)Li, G., Hammoud, H., Itani, H., Khizbullin, D., and Ghanem, B.
Camel: Communicative agents for” mind” exploration of large language model society.Advances in Neural Information Processing Systems, 36:51991–52008, 2023. https://arxiv.org/abs/2303.17760 - Li et al. (2024a)Li, Q., Cui, L., Zhao, X., Kong, L., and Bi, W.
Gsm-plus: A comprehensive benchmark for evaluating the robustness of llms as mathematical problem solvers.arXiv preprint arXiv:2402.19255, 2024a. https://arxiv.org/abs/2402.19255 - Li et al. (2024b)Li, X., Wang, S., Zeng, S., Wu, Y., and Yang, Y.
A survey on llm-based multi-agent systems: workflow, infrastructure, and challenges.Vicinagearth, 1(1):9, 2024b. https://arxiv.org/abs/2412.17481v2 - Li et al. (2024c)Li, Z., Zang, Q., Ma, D., Guo, J., Zheng, T., Liu, M., Niu, X., Wang, Y., Yang, J., Liu, J., et al.
Autokaggle: A multi-agent framework for autonomous data science competitions.arXiv preprint arXiv:2410.20424, 2024c. https://arxiv.org/abs/2410.20424 - Liang et al. (2025)Liang, X., Xiang, J., Yu, Z., Zhang, J., and Hong, S.
Openmanus: An open-source framework for building general ai agents.https://github.com/mannaandpoem/OpenManus, 2025. - Liu et al. (2023)Liu, Y., Yao, Y., Ton, J.-F., Zhang, X., Cheng, R. G. H., Klochkov, Y., Taufiq, M. F., and Li, H.
Trustworthy llms: A survey and guideline for evaluating large language models’ alignment.arXiv preprint arXiv:2308.05374, 2023. https://arxiv.org/abs/2308.05374 - Long et al. (2024)Long, Q., Li, Z., Gong, R., Wu, Y. N., Terzopoulos, D., and Gao, X.
Teamcraft: A benchmark for multi-modal multi-agent systems in minecraft.arXiv preprint arXiv:2412.05255, 2024. https://arxiv.org/abs/2412.05255 - Mandi et al. (2023)Mandi, Z., Jain, S., and Song, S.
Roco: Dialectic multi-robot collaboration with large language models, 2023.URL https://arxiv.org/abs/2307.04738. - McHugh (2012)McHugh, M. L.
Interrater reliability: the kappa statistic.Biochemia medica, 22(3):276–282, 2012. https://pubmed.ncbi.nlm.nih.gov/23092060/ - Niu et al. (2021)Niu, Y., Paleja, R. R., and Gombolay, M. C.
Multi-agent graph-attention communication and teaming.In AAMAS, volume 21, pp. 20th, 2021. https://www.ifaamas.org/Proceedings/aamas2021/pdfs/p964.pdf - Packer et al. (2023)Packer, C., Wooders, S., Lin, K., Fang, V., Patil, S. G., Stoica, I., and Gonzalez, J. E.Memgpt: Towards llms as operating systems.arXiv preprint arXiv:2310.08560, 2023.
- Packer et al. (2024)Packer, C., Wooders, S., Lin, K., Fang, V., Patil, S. G., Stoica, I., and Gonzalez, J. E.Memgpt: Towards llms as operating systems, 2024.URL https://arxiv.org/abs/2310.08560.
- Park et al. (2023a)Park, J. S., O’Brien, J., Cai, C. J., Morris, M. R., Liang, P., and Bernstein, M. S.
Generative agents: Interactive simulacra of human behavior.In Proceedings of the 36th annual acm symposium on user interface software and technology, pp. 1–22, 2023a. - Park et al. (2023b)Park, J. S., O’Brien, J. C., Cai, C. J., Morris, M. R., Liang, P., and Bernstein, M. S.
Generative agents: Interactive simulacra of human behavior, 2023b.URL https://arxiv.org/abs/2304.03442. - Patil et al. (2023)Patil, S. G., Zhang, T., Wang, X., and Gonzalez, J. E.
Gorilla: Large language model connected with massive apis, 2023.URL https://arxiv.org/abs/2305.15334. - Peng et al. (2023)Peng, B., Galley, M., He, P., Cheng, H., Xie, Y., Hu, Y., Huang, Q., Liden, L., Yu, Z., Chen, W., et al.
Check your facts and try again: Improving large language models with external knowledge and automated feedback.arXiv preprint arXiv:2302.12813, 2023. https://arxiv.org/abs/2302.12813 - Peng et al. (2024)Peng, J.-L., Cheng, S., Diau, E., Shih, Y.-Y., Chen, P.-H., Lin, Y.-T., and Chen, Y.-N.
A survey of useful llm evaluation.arXiv preprint arXiv:2406.00936, 2024. https://arxiv.org/abs/2406.00936 - Perrow (1984)Perrow, C.Normal Accidents: Living with High-Risk Technologies.Princeton University Press, Princeton, NJ, 1984.ISBN 978-0691004129.
- Phan et al. (2024)Phan, H. N., Nguyen, T. N., Nguyen, P. X., and Bui, N. D.
Hyperagent: Generalist software engineering agents to solve coding tasks at scale.arXiv preprint arXiv:2409.16299, 2024. https://arxiv.org/abs/2409.16299 - Qian et al. (2023)Qian, C., Liu, W., Liu, H., Chen, N., Dang, Y., Li, J., Yang, C., Chen, W., Su, Y., Cong, X., Xu, J., Li, D., Liu, Z., and Sun, M.
Chatdev: Communicative agents for software development.arXiv preprint arXiv:2307.07924, 2023.URL https://arxiv.org/abs/2307.07924. - Qian et al. (2024)Qian, C., Liu, W., Liu, H., Chen, N., Dang, Y., Li, J., Yang, C., Chen, W., Su, Y., Cong, X., et al.
Chatdev: Communicative agents for software development.In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 15174–15186, 2024. https://aclanthology.org/2024.acl-long.810/ - Roberts & Rousseau (1989)Roberts, K. and Rousseau, D.
Research in nearly failure-free, high-reliability organizations: having the bubble.IEEE Transactions on Engineering Management, 36(2):132–139, 1989.doi: 10.1109/17.18830. https://ieeexplore.ieee.org/document/18830 - Roberts (1989)Roberts, K. H.
New challenges in organizational research: High reliability organizations.Organization & Environment, 3(2):111–125, 1989.doi: 10.1177/108602668900300202. https://journals.sagepub.com/doi/10.1177/108602668900300202 - Rochlin (1996)Rochlin, G. I.
Reliable organizations: Present research and future directions.Journal of contingencies and crisis management., 4(2), 1996.ISSN 0966-0879. https://onlinelibrary.wiley.com/doi/10.1111/j.1468-5973.1996.tb00077.x - Singh et al. (2018)Singh, A., Jain, T., and Sukhbaatar, S.
Learning when to communicate at scale in multiagent cooperative and competitive tasks.arXiv preprint arXiv:1812.09755, 2018. https://arxiv.org/abs/1812.09755 - Stoica et al. (2024a)Stoica, I., Zaharia, M., Gonzalez, J., Goldberg, K., Sen, K., Zhang, H., Angelopoulos, A., Patil, S. G., Chen, L., Chiang, W.-L., and Davis, J. Q.
Specifications: The missing link to making the development of llm systems an engineering discipline, 2024a.URL https://arxiv.org/abs/2412.05299. - Stoica et al. (2024b)Stoica, I., Zaharia, M., Gonzalez, J., Goldberg, K., Zhang, H., Angelopoulos, A., Patil, S. G., Chen, L., Chiang, W.-L., and Davis, J. Q.
Specifications: The missing link to making the development of llm systems an engineering discipline.arXiv preprint arXiv:2412.05299, 2024b. - Stroebl et al. (2024)Stroebl, B., Kapoor, S., and Narayanan, A.
Inference scaling f laws: The limits of llm resampling with imperfect verifiers.arXiv preprint arXiv:2411.17501, 2024. https://arxiv.org/abs/2411.17501 - Swanson et al. (2024)Swanson, K., Wu, W., Bulaong, N. L., Pak, J. E., and Zou, J.
The virtual lab: Ai agents design new sars-cov-2 nanobodies with experimental validation.bioRxiv, 2024.doi: 10.1101/2024.11.11.623004.URL https://www.biorxiv.org/content/early/2024/11/12/2024.11.11.623004. - Talebirad & Nadiri (2023)Talebirad, Y. and Nadiri, A.
Multi-agent collaboration: Harnessing the power of intelligent llm agents.arXiv preprint arXiv:2306.03314, 2023. https://arxiv.org/abs/2306.03314 - Tolstoy (1878)Tolstoy, L.Anna Karenina.The Russian Messenger, 1878.
- Trivedi et al. (2024)Trivedi, H., Khot, T., Hartmann, M., Manku, R., Dong, V., Li, E., Gupta, S., Sabharwal, A., and Balasubramanian, N.
Appworld: A controllable world of apps and people for benchmarking interactive coding agents.arXiv preprint arXiv:2407.18901, 2024. https://arxiv.org/abs/2407.18901 - Wang et al. (2024a)Wang, L., Ma, C., Feng, X., Zhang, Z., Yang, H., Zhang, J., Chen, Z., Tang, J., Chen, X., Lin, Y., Zhao, W. X., Wei, Z., and Wen, J.
A survey on large language model based autonomous agents.Frontiers of Computer Science, 18(6), March 2024a.ISSN 2095-2236.doi: 10.1007/s11704-024-40231-1.URL http://dx.doi.org/10.1007/s11704-024-40231-1. - Wang et al. (2024b)Wang, L., Ma, C., Feng, X., Zhang, Z., Yang, H., Zhang, J., Chen, Z., Tang, J., Chen, X., Lin, Y., et al.
A survey on large language model based autonomous agents.Frontiers of Computer Science, 18(6):186345, 2024b. https://arxiv.org/abs/2308.11432 - Wang et al. (2024c)Wang, W., Zhang, D., Feng, T., Wang, B., and Tang, J.
Battleagentbench: A benchmark for evaluating cooperation and competition capabilities of language models in multi-agent systems.arXiv preprint arXiv:2408.15971, 2024c. https://arxiv.org/abs/2408.15971 - Wang et al. (2024d)Wang, X., Li, B., Song, Y., Xu, F. F., Tang, X., Zhuge, M., Pan, J., Song, Y., Li, B., Singh, J., Tran, H. H., Li, F., Ma, R., Zheng, M., Qian, B., Shao, Y., Muennighoff, N., Zhang, Y., Hui, B., Lin, J., Brennan, R., Peng, H., Ji, H., and Neubig, G.
Openhands: An open platform for ai software developers as generalist agents, 2024d.URL https://arxiv.org/abs/2407.16741. - Wang et al. (2024e)Wang, Z. Z., Mao, J., Fried, D., and Neubig, G.
Agent workflow memory, 2024e.URL https://arxiv.org/abs/2409.07429. - Weng et al. (2023)Weng, Y., Zhu, M., Xia, F., Li, B., He, S., Liu, S., Sun, B., Liu, K., and Zhao, J.
Large language models are better reasoners with self-verification.In The 2023 Conference on Empirical Methods in Natural Language Processing, 2023. https://arxiv.org/abs/2212.09561 - Wu et al. (2023)Wu, Q., Bansal, G., Zhang, J., Wu, Y., Zhang, S., Zhu, E., Li, B., Jiang, L., Zhang, X., and Wang, C.
Autogen: Enabling next-gen llm applications via multi-agent conversation framework.arXiv preprint arXiv:2308.08155, 2023. https://arxiv.org/abs/2308.08155 - Wu et al. (2024a)Wu, Q., Bansal, G., Zhang, J., Wu, Y., Li, B., Zhu, E., Jiang, L., Zhang, X., Zhang, S., Liu, J., et al.
Autogen: Enabling next-gen llm applications via multi-agent conversations.In First Conference on Language Modeling, 2024a. - Wu et al. (2024b)Wu, Y., Yue, T., Zhang, S., Wang, C., and Wu, Q.
Stateflow: Enhancing llm task-solving through state-driven workflows, 2024b.URL https://arxiv.org/abs/2403.11322. - Xi et al. (2023)Xi, Z., Chen, W., Guo, X., He, W., Ding, Y., Hong, B., Zhang, M., Wang, J., Jin, S., Zhou, E., et al.
The rise and potential of large language model based agents: A survey.arXiv preprint arXiv:2309.07864, 2023. https://arxiv.org/abs/2309.07864 - Xia et al. (2024)Xia, C. S., Deng, Y., Dunn, S., and Zhang, L.
Agentless: Demystifying llm-based software engineering agents, 2024.URL https://arxiv.org/abs/2407.01489. - Xu et al. (2023)Xu, Z., Shi, S., Hu, B., Yu, J., Li, D., Zhang, M., and Wu, Y.
Towards reasoning in large language models via multi-agent peer review collaboration.arXiv preprint arXiv:2311.08152, 2023. https://arxiv.org/abs/2311.08152 - Yao et al. (2024a)Yao, S., Yu, D., Zhao, J., Shafran, I., Griffiths, T., Cao, Y., and Narasimhan, K.
Tree of thoughts: Deliberate problem solving with large language models.Advances in Neural Information Processing Systems, 36, 2024a. https://arxiv.org/abs/2305.10601 - Yao et al. (2024b)Yao, Y., Duan, J., Xu, K., Cai, Y., Sun, Z., and Zhang, Y.
A survey on large language model (llm) security and privacy: The good, the bad, and the ugly.High-Confidence Computing, pp. 100211, 2024b. https://arxiv.org/abs/2312.02003 - Yu et al. (2022)Yu, C., Velu, A., Vinitsky, E., Gao, J., Wang, Y., Bayen, A., and Wu, Y.
The surprising effectiveness of ppo in cooperative multi-agent games.Advances in Neural Information Processing Systems, 35:24611–24624, 2022. https://arxiv.org/abs/2103.01955 - Zhang et al. (2024)Zhang, H., Du, W., Shan, J., Zhou, Q., Du, Y., Tenenbaum, J. B., Shu, T., and Gan, C.
Building cooperative embodied agents modularly with large language models, 2024.URL https://arxiv.org/abs/2307.02485. - Zheng et al. (2023)Zheng, L., Chiang, W.-L., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., Lin, Z., Li, Z., Li, D., Xing, E. P., Zhang, H., Gonzalez, J. E., and Stoica, I.
Judging llm-as-a-judge with mt-bench and chatbot arena, 2023.URL https://arxiv.org/abs/2306.05685.