近年、大規模言語モデル(Large Language Models、以下LLM)の目覚ましい発展は、人工知能の様々な分野に革新をもたらしています。その中でも特に注目を集めているのが、LLMを個々の「エージェント」の知能コアとして組み込んだマルチエージェントシステム(Multi-Agent Systems、以下MAS) の構築です。これは、単一の強力なAIがすべてをこなすのではなく、それぞれが特定の役割や能力を持つ複数のエージェントが互いに協調し、通信し、知識を共有することで、より複雑で大規模な問題を解決しようというアプローチです。あたかも、専門家が集まってチームを組み、難題に取り組むようなものです。
ここでは、このエキサイティングなLLMベースMASの世界に足を踏み入れ、その基本的な定義から、エージェントの内部構造、相互作用、そして学習メカニズムに至るまで、その核心となる概念を深く掘り下げていきます。
1. LLMベースエージェントの解剖学:構成要素を理解する
LLMベースMASを理解するための最初のステップは、システムを構成する個々の「エージェント」がどのような要素から成り立っているかを知ることです。伝統的なMASの概念を踏襲しつつ、LLMの能力を最大限に活かすための設計がなされています。
1.1. システムの基盤:マルチエージェントシステム(MAS)とは
まず、マルチエージェントシステム(MAS) の基本的な考え方を確認しておきましょう。MASとは、複数の相互作用する知的エージェントから構成される計算フレームワークを指します。ここでの「エージェント」とは、自律的に環境を認識し、意思決定を行い、行動できるソフトウェア(あるいはハードウェア)エンティティのことです。MASの真価は、単一のエージェントの能力や知識だけでは解決が困難な複雑な問題を、複数のエージェントが通信、連携、知識共有を通じて協調的に解決できる点にあります。各エージェントが専門知識を持ち寄り、役割分担することで、あたかも社会システムのように機能するわけです。
1.2. LLMという名の「脳」:エージェントの中核
LLMベースMASにおいて、各エージェントの最も重要なコンポーネントは、その 「脳」 として機能する大規模言語モデル(LLM) です。GPTシリーズやGemini、Claudeなどがその代表例ですが、これらのLLMが持つ高度な自然言語処理能力、膨大な知識、そして驚くべき推論・生成能力が、エージェントに従来にはない知性をもたらします。
具体的には、LLMは以下の役割を担います。
- 知識と記憶の貯蔵庫: LLM自体が持つ事前学習された知識に加え、対話履歴や外部情報源からの情報を処理し、短期・長期の記憶として活用します。
- 情報処理と推論: 環境から得た情報や他のエージェントからのメッセージを解釈し、与えられた目標達成のための推論を行います。Chain-of-Thought (CoT) や Zero-shot-CoT といったプロンプティング技術を用いることで、複雑な問題に対する段階的な思考プロセスをシミュレートし、推論能力を高めることが可能です。
- 意思決定と計画策定: 推論結果に基づき、次に取るべき行動を決定し、目標達成までの計画を策定します。さらに、計画の実行結果を評価し、必要に応じて計画を反省・修正する能力も持ち合わせます。
- 言語生成: 他のエージェントとのコミュニケーションや、人間への応答のために、自然言語によるメッセージやレポートを生成します。
このように、LLMはエージェントの思考と意思決定の中枢として機能し、その知能レベルを飛躍的に向上させているのです。
1.3. 世界を知る窓:知覚(Perception)
エージェントが自律的に行動するためには、自身が置かれている環境や状況を認識する能力、すなわち知覚(Perception) が不可欠です。LLMベースのエージェントにおける知覚モジュールは、テキスト情報だけでなく、音声、画像、センサーデータなど、様々なモダリティ(様式) の外部情報を入力として受け取り、それをLLMが理解可能な形式に変換する役割を担います。これにより、エージェントは単なるテキスト処理ボットに留まらず、よりリッチな現実世界や仮想環境の情報を捉え、それに基づいて判断を下すことが可能になります。例えば、画像認識モデルを統合すれば、エージェントは視覚的な情報を理解できるようになります。
1.4. 環境への働きかけ:行動(Action)
知覚によって環境を認識し、LLM(脳)によって意思決定がなされた後、エージェントはその結果を行動(Action) として外部に表出させます。行動は、エージェントが環境に対して影響を与えるための手段であり、その形態は多岐にわたります。
- 他のエージェントとの通信: 最も基本的な行動の一つが、メッセージ交換による他のエージェントとの情報交換です。これにより、協調作業や交渉が可能になります。
- ツールの利用: 外部のAPIを呼び出したり、特定のソフトウェアツール(例:コード実行環境、データベース検索、ウェブ検索)を利用したりする能力です。これにより、LLM単体では不可能な計算処理や情報アクセスを実現し、エージェントの能力を拡張します。
- 環境への物理的(あるいは仮想的)な操作: ロボットアームの制御や、ゲーム内キャラクターの操作など、エージェントが具現化された身体を持つ場合、環境に対して直接的な働きかけを行うことも行動に含まれます。
LLMによって策定された計画に基づき、これらの行動を実行することで、エージェントは目標達成に向けて能動的に環境に関与していくのです。
1.5. より洗練されたモデル:5要素によるエージェント定義
上記で述べた「脳・知覚・行動」という3要素モデルは、LLMベースエージェントの基本的な構成を捉える上で有用ですが、より詳細な分析や設計のためには、さらに要素を加えたモデルが提案されています。ある研究では、LLMベースのエージェントを以下の五つ組 (L,O,M,A,R) で表現しています。
- L (LLM): これは前述の通り、エージェントの中核となるLLMです。
- O (Objective): エージェントが達成すべき目標や望ましい結果を明確に定義します。これは、エージェントの行動戦略やタスク分解の指針となります。
- M (Memory): 過去の経験、現在の状態、外部との相互作用からのフィードバックといった情報を保持し、活用する能力です。ワーキングメモリ(短期記憶)から長期記憶まで、様々な形式の記憶が含まれます。効果的な記憶メカニズムは、エージェントが過去の成功や失敗から学び、状況に応じた適切な行動をとるために不可欠です。例えば、過去の対話履歴を保持することで文脈を維持したり、成功したタスク解決のワークフローを記憶して再利用したりします。
- A (Action): 前述の行動に相当し、エージェントが実行可能な操作の範囲を定義します。
- R (Rethink): これは自己反省や再考のプロセスを指します。行動を実行した後、その結果や得られたフィードバック、そして自身の記憶情報を評価し、次の行動計画や意思決定に反映させる能力です。この反省的思考プロセスは、エージェントが経験から学習し、適応性を高め、より知的な振る舞いを示す上で極めて重要な要素となります。学習の方法論(In-Context Learning, Supervised Learning, Reinforcement Learningなど)とも密接に関連します。
この5要素モデルは、LLMベースのエージェントがどのように目標を持ち、記憶を活用し、行動し、そして自らを省みて改善していくのか、その動的なプロセスをより深く理解するための強力な枠組みを提供します。
2. エージェントに個性を与える:役割と動的な振る舞い
LLMベースMASの魅力の一つは、個々のエージェントにあたかも個性のようなものを持たせ、特定の役割を担わせることができる点にあります。これは、LLMの柔軟な言語理解・生成能力と、プロンプトエンジニアリングの工夫によって実現されます。
2.1. プロンプトエンジニアリングによる役割定義
LLMは、入力として与えられるプロンプト(指示文) に非常に敏感に応答します。この性質を利用し、各エージェントのLLMに対して、その役割、専門知識、行動規範、目標、他のエージェントとの関係性などを定義する初期プロンプト(しばしば「システムメッセージ」と呼ばれる) を与えることで、エージェントの基本的な性格や振る舞いを方向づけることができます。
例えば、ソフトウェア開発を複数のエージェントでシミュレーションするフレームワークである ChatDev や MetaGPT では、「あなたは経験豊富なPythonプログラマーです。あなたの目標は、与えられた仕様に基づいて高品質なコードを記述することです」「あなたはコードレビュー担当者です。提出されたコードの品質、効率性、セキュリティをチェックし、改善点を提案してください」といった具体的な役割プロンプトが各エージェントに与えられます。これにより、各エージェントは割り当てられた役割に特化した思考や発言、行動をとるようになり、システム全体として現実世界の社会的な分業体制を効果的に模倣することが可能になります。これは、単一の汎用LLMにすべてのタスクを任せるよりも、はるかに専門的で効率的な問題解決を可能にするアプローチです。
2.2. 経験と対話がエージェントを育む:動的な行動変化
エージェントの行動は、初期プロンプトによって静的に決定されるだけではありません。むしろ、エージェントは自身の経験(記憶) や他のエージェントとのインタラクションを通じて、その行動を動的に変化させていきます。
- 記憶の活用: 前述の記憶(Memory) メカニズムは、過去の対話履歴、行動の結果、成功・失敗体験などを蓄積します。エージェントはこれらの記憶を参照し、現在の状況判断や将来の行動選択に役立てます。例えば、以前に特定のAPI呼び出しでエラーが発生したことを記憶していれば、次回は異なるパラメータを試すといった適応的な行動が可能になります。
- エージェント間インタラクション: 他のエージェントとの通信は、新たな情報の入手、タスクの調整、協力の要請、フィードバックの交換など、行動変化の重要なトリガーとなります。あるエージェントからの提案が別のエージェントの計画修正を促したり、共同作業における合意形成が行われたりします。ChatDevにおけるチャットチェーン(Chat Chain) のように、複数のエージェントが段階的に対話を重ねながらタスクを進めるプロセスでは、各エージェントの発言や行動は、直前のエージェントの出力やサブタスクの目標に応じて柔軟に調整されます。
- 自己反省(Rethink): 再考(Rethink) の能力を持つエージェントは、自らの行動の結果を評価し、より良い戦略や行動パターンを学習していきます。この反省的思考プロセスにより、エージェントは単なる指示待ちではなく、自律的にパフォーマンスを改善していくことが期待されます。
これらの要素が組み合わさることで、LLMベースのエージェントは、静的なプログラムとは異なり、状況に応じて学習・適応し、あたかも生きているかのように振る舞う可能性を秘めているのです。
3. エージェントたちの協奏曲:関係性とコミュニケーション
マルチエージェントシステムの「マルチ」たる所以は、複数のエージェントが存在し、それらが相互に関わり合う点にあります。LLMベースMASにおいても、エージェント間の関係性とコミュニケーションの設計は、システム全体の性能と挙動を決定づける上で極めて重要です。
3.1. グラフ理論で描くエージェントネットワーク
複数のLLMベースエージェント間の関係性は、グラフ構造 $G(V,E)$ を用いてモデル化することができます。この考え方は、システム全体の構造を理解し、情報伝達の流れを設計する上で非常に有用です。
- ノード (V): グラフの各ノード $V_i$ は、個々のLLMベースのエージェントを表します。
- エッジ (E): ノード間を結ぶエッジ $E_{ij}$ は、エージェント $V_i$ と $V_j$ の間の関係性やメッセージパッシングの可能性を示します。エッジは、情報が流れる方向を示す有向グラフとして定義されることもあれば、単純な接続関係を示す無向グラフとして定義されることもあります。
このグラフ構造は、システム内の誰が誰と通信できるのか、どのような情報伝達経路が存在するのかを視覚的・数学的に表現します。例えば、階層的な組織構造を模倣したり、特定のタスクチーム内での密な連携を表現したりするなど、様々なコミュニケーションパターンを設計することが可能です。
3.2. 情報伝達の生命線:メッセージパッシング
エージェント間の協調作業は、メッセージパッシング、すなわち情報交換によって成り立っています。エージェントは、グラフ構造によって定義された接続関係に基づいて、互いにメッセージを送受信します。
メッセージパッシングのメカニズム、タイミング、そして内容は、システムの目的や設計思想によって大きく異なります。
- メカニズム: 同期的に行われるか、非同期的に行われるか。ブロードキャスト(全員への送信)か、特定の相手へのユニキャストか。中央のメッセージブローカーを経由するか、エージェント間で直接通信するか、など様々な方式が考えられます。
- タイミング: 定期的に情報を交換するのか、特定のイベント発生時に交換するのか、あるいは必要に応じて随時交換するのか。
-
内容: メッセージの内容も多岐にわたります。
- 質問: 他のエージェントに情報を求める。
- 報告: タスクの進捗状況や行動の結果を共有する(例:ChatDevでプログラマーが進捗をマネージャーに報告)。
- 指示・依頼: 他のエージェントに特定の行動を依頼する。
- 提案・フィードバック: コードレビュー担当者がプログラマーに改善案を提示する。
- 状態共有: ゲーム環境内で、各エージェント(例:タンク)が自身の位置や敵の情報を共有する。
- 協力要請: 困難なタスクに対して、他のエージェントに協力を求める。
例えば、フレームワーク Optima では、エージェント間のチャット(AgentChat) を通じて情報交換が行われ、協調的なタスク遂行が実現されます。また、タンク対戦ゲームの例では、エージェント(タンク)が「協力オプション」を用いて他のタンクに協力を要請したり、敵の位置情報を共有したりするメッセージパッシングが想定されています。
効果的なメッセージパッシングの設計は、エージェント間の誤解を防ぎ、必要な情報を適切なタイミングで共有させ、システム全体の効率とロバスト性を高めるための鍵となります。
4. 集合知の進化:学習と知識共有のメカニズム
マルチエージェントシステムが真にインテリジェントであるためには、個々のエージェントが学習し、かつ、その知識がシステム全体で効果的に共有・活用されるメカニズムが必要です。LLMベースMASにおいても、学習スタイルと知識共有は、システムの適応性と性能向上を左右する重要な研究テーマです。
4.1. エージェントはいかに学ぶか:多様な学習スタイル
マルチエージェント環境における学習は、単一エージェントの学習とは異なる課題とアプローチを伴います。主な学習スタイル(パラダイム)としては、以下のものが挙げられます。
独立学習 (Independent Learning, IL)
最もシンプルなアプローチで、各エージェントは他のエージェントの存在を陽に考慮せず、自身の経験に基づいて独立して学習を進めます。実装は容易ですが、他のエージェントも同時に学習しているため、各エージェントにとって環境が非定常(non-stationary) になり、学習が不安定になるという課題があります。例えば、IPPO (Independent Proximal Policy Optimization) は、各エージェントが自身の観測のみに基づいてPPOアルゴリズムで学習する、このパラダイムの一例です。
中央集権型訓練・分散型実行 (Centralized Training with Decentralized Execution, CTDE)
このパラダイムは、ILの非定常性問題を緩和するために広く研究されています。訓練フェーズでは、中央のコントローラーが全てのエージェントの情報(観測、行動、報酬など)にアクセスし、協調的な方策を集中的に学習します。これにより、エージェント間の協調関係や全体の目標達成を考慮した学習が可能になります。しかし、実行フェーズでは、各エージェントは自身のローカルな観測のみに基づいて分散的に(独立して)行動します。これにより、実行時の通信コストやプライバシーの問題を回避できます。訓練時にのみ利用可能なグローバル情報(他のエージェントの状態など)を価値関数(Critic)の学習に利用する MAPPO (Multi-Agent PPO) などが、このCTDEの枠組みに従う代表的なアルゴリズムです。
完全中央集権型 (Fully Centralized)
全てのエージェントを一つの巨大なエージェントとみなし、中央のコントローラーが全ての観測を入力として受け取り、全ての行動を決定します。理論的には最適解を見つけやすいですが、エージェント数が増加すると状態空間と行動空間が組み合わせ的に爆発し、計算コストが非常に高くなるため、実用的な適用範囲は限られます。
分散型学習 (Decentralized Learning)
CTDEとは異なり、訓練フェーズにおいても各エージェントが分散的に学習を行いますが、隣接するエージェント間でパラメータや勾配情報を交換するなどして協調を図るアプローチも存在します。
LLMベースMASにおいては、LLMの能力(Few-shot学習、In-context Learningなど)とこれらの強化学習パラダイムをどのように組み合わせるかが、今後の重要な研究方向性の一つです。
4.2. 知識は力なり:共有のレベルと記憶の役割
学習によって得られた知識や経験は、エージェント間で共有されることで、システム全体のパフォーマンス向上に貢献します。知識共有は、様々なレベルで考えることができます。
- エージェントレベル (Agent Level): 個々のエージェントが自身の記憶内に知識を蓄積し、必要に応じてメッセージパッシングを通じて他のエージェントと直接共有します。例えば、あるエージェントが特定のツールの上手な使い方を発見し、それを他のエージェントに教えるようなケースです。
- シナリオレベル (Scenario Level): 特定のタスクシナリオやプロジェクトに関連する知識が、そのシナリオに関与するエージェントグループ全体で共有されます。例えば、あるソフトウェア開発プロジェクト固有の設計ドキュメントやコーディング規約などが共有知識ベースとして利用される場合です。
- タスクレベル (Task Level): 特定のサブタスクを遂行するために必要な専門知識が、そのタスクを担当するエージェント間で共有されます。例えば、データベース操作を担当するエージェント間で、最適なクエリの書き方に関する知識が共有される場合などです。
これらの知識共有において、記憶(Memory) メカニズムは中心的な役割を果たします。
- 短期記憶 (Short-term Memory): 主に現在の対話の文脈や、直近のタスク遂行に必要な一時的な情報を保持します。LLMのコンテキストウィンドウがこの役割の一部を担いますが、その長さに制約があるため、重要な情報を取捨選択する工夫が必要です。ChatDevにおける対話履歴のアーカイブなどがこれに該当します。
- 長期記憶 (Long-term Memory): より永続的な知識や経験を保存するための仕組みです。ベクトルデータベースを用いた関連情報の高速検索、知識グラフによる構造化された知識表現、外部データベースへのアクセスなどが利用されます。MemGPT のように、LLM自身が関数呼び出しを通じて外部メモリ(長期記憶)との間で情報を読み書きし、コンテキスト長を超える情報を扱えるようにするフレームワークも登場しています。MemGPTは、会話が長くなった際に、古い情報を要約して長期記憶に格納したり、必要な過去情報を長期記憶から検索して現在のコンテキストに挿入したりといった操作を自律的に行います。
- ワークフローメモリ (Workflow Memory): 過去の成功したタスク解決の経験(指示と行動の軌跡) からワークフロー(一連の行動パターン) を抽出し、それを記憶として再利用するアプローチも提案されています。Agent Workflow Memory (AWM) はその一例で、オフラインまたはオンラインで学習した効果的なワークフローをエージェントの記憶に統合し、類似のタスクに遭遇した際にそのワークフローを呼び出して効率的に問題を解決することを目指します。
これらの多様な学習スタイルと知識共有メカニズムを組み合わせ、LLMの持つポテンシャルを最大限に引き出すことで、LLMベースのマルチエージェントシステムは、これまでにないレベルの協調性、適応性、そして問題解決能力を獲得していくことが期待されます。
5. まとめと展望:LLMベースMASが拓く未来
ここでは、LLMを搭載したマルチエージェントシステム(MAS)の基礎的な概念から、その構成要素、エージェントの特性、相互作用、そして学習と知識共有のメカニズムに至るまでを概観してきました。
LLMという強力な「脳」を中心に、知覚、行動、目的、記憶、そして自己反省といった要素が組み合わさることで、個々のエージェントは高度な自律性と適応性を獲得します。さらに、プロンプトによる役割付与やグラフ構造に基づくメッセージパッシングを通じて、これらのエージェントが協調し、あたかも人間の組織のように機能することで、単一のエージェントでは達成不可能な複雑なタスクに取り組むことが可能になります。中央集権型訓練(CTDE)のような洗練された学習パラダイムや、短期・長期記憶、ワークフローメモリといった多様な知識共有メカニズムは、システム全体の知能を継続的に向上させるための鍵となります。
LLMベースMASは、まだ発展途上の技術領域ではありますが、その応用可能性は計り知れません。
- ソフトウェア開発: 要件定義から設計、コーディング、テスト、デバッグまでを複数の専門エージェントが分担・協調して行う(ChatDev, MetaGPT)。
- 科学研究: 論文調査、実験計画、データ分析、結果の考察などを複数のエージェントが協力して加速する。
- ゲーム: より人間らしく、戦略的に行動し、チーム内で連携するNPC(Non-Player Character)の開発や、プレイヤーのアシスタント。
- 教育: 個別最適化された学習プランの作成や、複数の専門分野にわたる質問応答システム。
- クリエイティブ作業: ストーリー生成、キャラクターデザイン、音楽制作などを複数の専門エージェントが共同で行う。
- 複雑なシミュレーション: 社会現象や経済動態などを、個々の意思決定を行うエージェント群によってボトムアップ的にシミュレーションする。
もちろん、エージェント間の効果的な協調方法、ハルシネーション(もっともらしい嘘)の抑制、計算コスト、倫理的な問題など、解決すべき課題も多く存在します。しかし、LLMとマルチエージェントシステムの融合は、間違いなく人工知能研究における最もエキサイティングなフロンティアの一つであり、今後、様々な分野で革新的なアプリケーションを生み出していく可能性を秘めています。この進化の速い領域から、今後も目が離せません。
References
- Anne et al. (2024)Anne, T., Syrkis, N., Elhosni, M., Turati, F., Legendre, F., Jaquier, A., and Risi, S.Harnessing language for coordination: A framework and benchmark for llm-driven multi-agent control.arXiv preprint arXiv:2412.11761, 2024. https://arxiv.org/abs/2412.11761
- Anthropic (2024a)Anthropic, Dec 2024a.URL https://www.anthropic.com/research/building-effective-agents.
- Anthropic (2024b)Anthropic.Building effective agents, 2024b.URL https://www.anthropic.com/research/building-effective-agents.
- Bansal et al. (2024)Bansal, G., Wortman Vaughan, J., Amershi, S., Horvitz, E., Fourney, A., Mozannar, H., Dibia, V., and Weld, D. S.
Challenges in human-agent communication.Technical Report MSR-TR-2024-53, Microsoft, December 2024.URL https://www.microsoft.com/en-us/research/publication/human-agent-interaction-challenges/ - Bettini et al. (2024)Bettini, M., Prorok, A., and Moens, V.
Benchmark: Benchmarking multi-agent reinforcement learning.Journal of Machine Learning Research, 25(217):1–10, 2024. https://arxiv.org/abs/2312.01472 - Chakraborty & Purkayastha (2023)Chakraborty, B. and Purkayastha, D.
Servicenow: From startup to world’s most innovative company.IUP Journal of Entrepreneurship Development, 20(1), 2023. https://www.icmrindia.org/casestudies/catalogue/Leadership and Entrepreneurship/LDEN155.htm - Chan et al. (2023)Chan, C.-M., Chen, W., Su, Y., Yu, J., Xue, W., Zhang, S., Fu, J., and Liu, Z.
Chateval: Towards better llm-based evaluators through multi-agent debate.arXiv preprint arXiv:2308.07201, 2023. https://arxiv.org/abs/2308.07201 - Chen et al. (2024a)Chen, L., Davis, J. Q., Hanin, B., Bailis, P., Stoica, I., Zaharia, M., and Zou, J.
Are more llm calls all you need? towards scaling laws of compound inference systems.arXiv preprint arXiv:2403.02419, 2024a. https://arxiv.org/abs/2403.02419 - Chen et al. (2024b)Chen, W., Yuan, J., Qian, C., Yang, C., Liu, Z., and Sun, M.
Optima: Optimizing effectiveness and efficiency for llm-based multi-agent system.arXiv preprint arXiv:2410.08115, 2024b. https://arxiv.org/abs/2410.08115 - Cheng et al. (2024)Cheng, Y., Zhang, C., Zhang, Z., Meng, X., Hong, S., Li, W., Wang, Z., Wang, Z., Yin, F., Zhao, J., et al.
Exploring large language model based intelligent agents: Definitions, methods, and prospects.arXiv preprint arXiv:2401.03428, 2024. https://arxiv.org/abs/2401.03428 - Cobbe et al. (2021)Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., Plappert, M., Tworek, J., Hilton, J., Nakano, R., et al.
Training verifiers to solve math word problems.arXiv preprint arXiv:2110.14168, 2021. https://arxiv.org/abs/2110.14168 - Draucker et al. (2007)Draucker, C. B., Martsolf, D. S., Ross, R., and Rusk, T. B.
Theoretical sampling and category development in grounded theory.Qualitative health research, 17(8):1137–1148, 2007. - Du et al. (2023)Du, Y., Li, S., Torralba, A., Tenenbaum, J. B., and Mordatch, I.
Improving factuality and reasoning in language models through multiagent debate, 2023.URL https://arxiv.org/abs/2305.14325. - Glaser & Strauss (1967)Glaser, B. G. and Strauss, A. L.
The Discovery of Grounded Theory: Strategies for Qualitative Research.Aldine Publishing Company, 1967. - Gottweis et al. (2025)Gottweis, J., Weng, W.-H., Daryin, A., Tu, T., Palepu, A., Sirkovic, P., Myaskovsky, A., Weissenberger, F., Rong, K., Tanno, R., Saab, K., Popovici, D., Blum, J., Zhang, F., Chou, K., Hassidim, A., Gokturk, B., Vahdat, A., Kohli, P., Matias, Y., Carroll, A., Kulkarni, K., Tomasev, N., Guan, Y., Dhillon, V., Vaishnav, E. D., Lee, B., Costa, T. R. D., Penadés, J. R., Peltz, G., Xu, Y., Pawlosky, A., Karthikesalingam, A., and Natarajan, V.
Towards an ai co-scientist, 2025.URL https://arxiv.org/abs/2502.18864. - Guo et al. (2024a)Guo, T., Chen, X., Wang, Y., Chang, R., Pei, S., Chawla, N. V., Wiest, O., and Zhang, X.
Large language model based multi-agents: A survey of progress and challenges.arXiv preprint arXiv:2402.01680, 2024a. https://arxiv.org/abs/2402.01680 - Guo et al. (2024b)Guo, X., Shi, D., Yu, J., and Fan, W.
Heterogeneous multi-agent reinforcement learning for zero-shot scalable collaboration.arXiv preprint arXiv:2404.03869, 2024b. https://arxiv.org/abs/2404.03869 - Haji et al. (2024)Haji, F., Bethany, M., Tabar, M., Chiang, J., Rios, A., and Najafirad, P.
Improving llm reasoning with multi-agent tree-of-thought validator agent.arXiv preprint arXiv:2409.11527, 2024. https://arxiv.org/abs/2409.11527 - He et al. (2024a)He, J., Rungta, M., Koleczek, D., Sekhon, A., Wang, F. X., and Hasan, S.
Does prompt formatting have any impact on llm performance?arXiv preprint arXiv:2411.10541, 2024a. https://arxiv.org/abs/2411.10541 - He et al. (2024b)He, J., Treude, C., and Lo, D.
Llm-based multi-agent systems for software engineering: Vision and the road ahead, 2024b.URL https://arxiv.org/abs/2404.04834. - Hong et al. (2023)Hong, S., Zheng, X., Chen, J., Cheng, Y., Wang, J., Zhang, C., Wang, Z., Yau, S. K. S., Lin, Z., Zhou, L., et al.
Metagpt: Meta programming for multi-agent collaborative framework.arXiv preprint arXiv:2308.00352, 2023. https://arxiv.org/abs/2308.00352 - Horvitz (1999)Horvitz, E.
Uncertainty, action, and interaction: In pursuit of mixed-initiative computing.IEEE Intelligent Systems, 14(5):17–20, 1999. http://erichorvitz.com/ftp/mixedin.pdf - Jain et al. (2024)Jain, K., Synnaeve, G., and Rozière, B.
Testgeneval: A real world unit test generation and test completion benchmark.arXiv preprint arXiv:2410.00752, 2024. https://arxiv.org/abs/2410.00752 - Jiang & Lu (2018)Jiang, J. and Lu, Z.
Learning attentional communication for multi-agent cooperation.Advances in neural information processing systems, 31, 2018. https://arxiv.org/abs/1805.07733 - Jimenez et al. (2024)Jimenez, C. E., Yang, J., Wettig, A., Yao, S., Pei, K., Press, O., and Narasimhan, K. R.
SWE-bench: Can language models resolve real-world github issues?In The Twelfth International Conference on Learning Representations, 2024.
URL https://openreview.net/forum?id=VTF8yNQM66.
https://arxiv.org/abs/2310.06770 - Kapanipathi et al. (2020)Kapanipathi, P., Abdelaziz, I., Ravishankar, S., Roukos, S., Gray, A., Astudillo, R., Chang, M., Cornelio, C., Dana, S., Fokoue, A., et al.
Question answering over knowledge bases by leveraging semantic parsing and neuro-symbolic reasoning.arXiv preprint arXiv:2012.01707, 2020. https://www.academia.edu/68569473/Question_Answering_over_Knowledge_Bases_by_Leveraging_Semantic_Parsing_and_Neuro_Symbolic_Reasoning
https://arxiv.org/abs/2012.01707 - Kapoor et al. (2024)Kapoor, S., Stroebl, B., Siegel, Z. S., Nadgir, N., and Narayanan, A.
Ai agents that matter, 2024.URL https://arxiv.org/abs/2407.01502. - Khandkar (2009)Khandkar, S. H.
Open coding.University of Calgary, 23(2009):2009, 2009. - Khattab et al. (2023)Khattab, O., Singhvi, A., Maheshwari, P., Zhang, Z., Santhanam, K., Vardhamanan, S., Haq, S., Sharma, A., Joshi, T. T., Moazam, H., Miller, H., Zaharia, M., and Potts, C.
Dspy: Compiling declarative language model calls into self-improving pipelines, 2023.URL https://arxiv.org/abs/2310.03714. - Lalitha et al. (2018)Lalitha, A., Javidi, T., and Sarwate, A. D.
Social learning and distributed hypothesis testing.IEEE Transactions on Information Theory, 64(9):6161–6179, 2018. https://arxiv.org/abs/1410.4307 - LangChain (2024)
LangChain.Langgraph, 2024.URL https://www.langchain.com/langgraph. - Li et al. (2023)Li, G., Hammoud, H., Itani, H., Khizbullin, D., and Ghanem, B.
Camel: Communicative agents for” mind” exploration of large language model society.Advances in Neural Information Processing Systems, 36:51991–52008, 2023. https://arxiv.org/abs/2303.17760 - Li et al. (2024a)Li, Q., Cui, L., Zhao, X., Kong, L., and Bi, W.
Gsm-plus: A comprehensive benchmark for evaluating the robustness of llms as mathematical problem solvers.arXiv preprint arXiv:2402.19255, 2024a. https://arxiv.org/abs/2402.19255 - Li et al. (2024b)Li, X., Wang, S., Zeng, S., Wu, Y., and Yang, Y.
A survey on llm-based multi-agent systems: workflow, infrastructure, and challenges.Vicinagearth, 1(1):9, 2024b. https://arxiv.org/abs/2412.17481v2 - Li et al. (2024c)Li, Z., Zang, Q., Ma, D., Guo, J., Zheng, T., Liu, M., Niu, X., Wang, Y., Yang, J., Liu, J., et al.
Autokaggle: A multi-agent framework for autonomous data science competitions.arXiv preprint arXiv:2410.20424, 2024c. https://arxiv.org/abs/2410.20424 - Liang et al. (2025)Liang, X., Xiang, J., Yu, Z., Zhang, J., and Hong, S.
Openmanus: An open-source framework for building general ai agents.https://github.com/mannaandpoem/OpenManus, 2025. - Liu et al. (2023)Liu, Y., Yao, Y., Ton, J.-F., Zhang, X., Cheng, R. G. H., Klochkov, Y., Taufiq, M. F., and Li, H.
Trustworthy llms: A survey and guideline for evaluating large language models’ alignment.arXiv preprint arXiv:2308.05374, 2023. https://arxiv.org/abs/2308.05374 - Long et al. (2024)Long, Q., Li, Z., Gong, R., Wu, Y. N., Terzopoulos, D., and Gao, X.
Teamcraft: A benchmark for multi-modal multi-agent systems in minecraft.arXiv preprint arXiv:2412.05255, 2024. https://arxiv.org/abs/2412.05255 - Mandi et al. (2023)Mandi, Z., Jain, S., and Song, S.
Roco: Dialectic multi-robot collaboration with large language models, 2023.URL https://arxiv.org/abs/2307.04738. - McHugh (2012)McHugh, M. L.
Interrater reliability: the kappa statistic.Biochemia medica, 22(3):276–282, 2012. https://pubmed.ncbi.nlm.nih.gov/23092060/ - Niu et al. (2021)Niu, Y., Paleja, R. R., and Gombolay, M. C.
Multi-agent graph-attention communication and teaming.In AAMAS, volume 21, pp. 20th, 2021. https://www.ifaamas.org/Proceedings/aamas2021/pdfs/p964.pdf - Packer et al. (2023)Packer, C., Wooders, S., Lin, K., Fang, V., Patil, S. G., Stoica, I., and Gonzalez, J. E.Memgpt: Towards llms as operating systems.arXiv preprint arXiv:2310.08560, 2023.
- Packer et al. (2024)Packer, C., Wooders, S., Lin, K., Fang, V., Patil, S. G., Stoica, I., and Gonzalez, J. E.Memgpt: Towards llms as operating systems, 2024.URL https://arxiv.org/abs/2310.08560.
- Park et al. (2023a)Park, J. S., O’Brien, J., Cai, C. J., Morris, M. R., Liang, P., and Bernstein, M. S.
Generative agents: Interactive simulacra of human behavior.In Proceedings of the 36th annual acm symposium on user interface software and technology, pp. 1–22, 2023a. - Park et al. (2023b)Park, J. S., O’Brien, J. C., Cai, C. J., Morris, M. R., Liang, P., and Bernstein, M. S.
Generative agents: Interactive simulacra of human behavior, 2023b.URL https://arxiv.org/abs/2304.03442. - Patil et al. (2023)Patil, S. G., Zhang, T., Wang, X., and Gonzalez, J. E.
Gorilla: Large language model connected with massive apis, 2023.URL https://arxiv.org/abs/2305.15334. - Peng et al. (2023)Peng, B., Galley, M., He, P., Cheng, H., Xie, Y., Hu, Y., Huang, Q., Liden, L., Yu, Z., Chen, W., et al.
Check your facts and try again: Improving large language models with external knowledge and automated feedback.arXiv preprint arXiv:2302.12813, 2023. https://arxiv.org/abs/2302.12813 - Peng et al. (2024)Peng, J.-L., Cheng, S., Diau, E., Shih, Y.-Y., Chen, P.-H., Lin, Y.-T., and Chen, Y.-N.
A survey of useful llm evaluation.arXiv preprint arXiv:2406.00936, 2024. https://arxiv.org/abs/2406.00936 - Perrow (1984)Perrow, C.Normal Accidents: Living with High-Risk Technologies.Princeton University Press, Princeton, NJ, 1984.ISBN 978-0691004129.
- Phan et al. (2024)Phan, H. N., Nguyen, T. N., Nguyen, P. X., and Bui, N. D.
Hyperagent: Generalist software engineering agents to solve coding tasks at scale.arXiv preprint arXiv:2409.16299, 2024. https://arxiv.org/abs/2409.16299 - Qian et al. (2023)Qian, C., Liu, W., Liu, H., Chen, N., Dang, Y., Li, J., Yang, C., Chen, W., Su, Y., Cong, X., Xu, J., Li, D., Liu, Z., and Sun, M.
Chatdev: Communicative agents for software development.arXiv preprint arXiv:2307.07924, 2023.URL https://arxiv.org/abs/2307.07924. - Qian et al. (2024)Qian, C., Liu, W., Liu, H., Chen, N., Dang, Y., Li, J., Yang, C., Chen, W., Su, Y., Cong, X., et al.
Chatdev: Communicative agents for software development.In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 15174–15186, 2024. https://aclanthology.org/2024.acl-long.810/ - Roberts & Rousseau (1989)Roberts, K. and Rousseau, D.
Research in nearly failure-free, high-reliability organizations: having the bubble.IEEE Transactions on Engineering Management, 36(2):132–139, 1989.doi: 10.1109/17.18830. https://ieeexplore.ieee.org/document/18830 - Roberts (1989)Roberts, K. H.
New challenges in organizational research: High reliability organizations.Organization & Environment, 3(2):111–125, 1989.doi: 10.1177/108602668900300202. https://journals.sagepub.com/doi/10.1177/108602668900300202 - Rochlin (1996)Rochlin, G. I.
Reliable organizations: Present research and future directions.Journal of contingencies and crisis management., 4(2), 1996.ISSN 0966-0879. https://onlinelibrary.wiley.com/doi/10.1111/j.1468-5973.1996.tb00077.x - Singh et al. (2018)Singh, A., Jain, T., and Sukhbaatar, S.
Learning when to communicate at scale in multiagent cooperative and competitive tasks.arXiv preprint arXiv:1812.09755, 2018. https://arxiv.org/abs/1812.09755 - Stoica et al. (2024a)Stoica, I., Zaharia, M., Gonzalez, J., Goldberg, K., Sen, K., Zhang, H., Angelopoulos, A., Patil, S. G., Chen, L., Chiang, W.-L., and Davis, J. Q.
Specifications: The missing link to making the development of llm systems an engineering discipline, 2024a.URL https://arxiv.org/abs/2412.05299. - Stoica et al. (2024b)Stoica, I., Zaharia, M., Gonzalez, J., Goldberg, K., Zhang, H., Angelopoulos, A., Patil, S. G., Chen, L., Chiang, W.-L., and Davis, J. Q.
Specifications: The missing link to making the development of llm systems an engineering discipline.arXiv preprint arXiv:2412.05299, 2024b. - Stroebl et al. (2024)Stroebl, B., Kapoor, S., and Narayanan, A.
Inference scaling f laws: The limits of llm resampling with imperfect verifiers.arXiv preprint arXiv:2411.17501, 2024. https://arxiv.org/abs/2411.17501 - Swanson et al. (2024)Swanson, K., Wu, W., Bulaong, N. L., Pak, J. E., and Zou, J.
The virtual lab: Ai agents design new sars-cov-2 nanobodies with experimental validation.bioRxiv, 2024.doi: 10.1101/2024.11.11.623004.URL https://www.biorxiv.org/content/early/2024/11/12/2024.11.11.623004. - Talebirad & Nadiri (2023)Talebirad, Y. and Nadiri, A.
Multi-agent collaboration: Harnessing the power of intelligent llm agents.arXiv preprint arXiv:2306.03314, 2023. https://arxiv.org/abs/2306.03314 - Tolstoy (1878)Tolstoy, L.Anna Karenina.The Russian Messenger, 1878.
- Trivedi et al. (2024)Trivedi, H., Khot, T., Hartmann, M., Manku, R., Dong, V., Li, E., Gupta, S., Sabharwal, A., and Balasubramanian, N.
Appworld: A controllable world of apps and people for benchmarking interactive coding agents.arXiv preprint arXiv:2407.18901, 2024. https://arxiv.org/abs/2407.18901 - Wang et al. (2024a)Wang, L., Ma, C., Feng, X., Zhang, Z., Yang, H., Zhang, J., Chen, Z., Tang, J., Chen, X., Lin, Y., Zhao, W. X., Wei, Z., and Wen, J.
A survey on large language model based autonomous agents.Frontiers of Computer Science, 18(6), March 2024a.ISSN 2095-2236.doi: 10.1007/s11704-024-40231-1.URL http://dx.doi.org/10.1007/s11704-024-40231-1. - Wang et al. (2024b)Wang, L., Ma, C., Feng, X., Zhang, Z., Yang, H., Zhang, J., Chen, Z., Tang, J., Chen, X., Lin, Y., et al.
A survey on large language model based autonomous agents.Frontiers of Computer Science, 18(6):186345, 2024b. https://arxiv.org/abs/2308.11432 - Wang et al. (2024c)Wang, W., Zhang, D., Feng, T., Wang, B., and Tang, J.
Battleagentbench: A benchmark for evaluating cooperation and competition capabilities of language models in multi-agent systems.arXiv preprint arXiv:2408.15971, 2024c. https://arxiv.org/abs/2408.15971 - Wang et al. (2024d)Wang, X., Li, B., Song, Y., Xu, F. F., Tang, X., Zhuge, M., Pan, J., Song, Y., Li, B., Singh, J., Tran, H. H., Li, F., Ma, R., Zheng, M., Qian, B., Shao, Y., Muennighoff, N., Zhang, Y., Hui, B., Lin, J., Brennan, R., Peng, H., Ji, H., and Neubig, G.
Openhands: An open platform for ai software developers as generalist agents, 2024d.URL https://arxiv.org/abs/2407.16741. - Wang et al. (2024e)Wang, Z. Z., Mao, J., Fried, D., and Neubig, G.
Agent workflow memory, 2024e.URL https://arxiv.org/abs/2409.07429. - Weng et al. (2023)Weng, Y., Zhu, M., Xia, F., Li, B., He, S., Liu, S., Sun, B., Liu, K., and Zhao, J.
Large language models are better reasoners with self-verification.In The 2023 Conference on Empirical Methods in Natural Language Processing, 2023. https://arxiv.org/abs/2212.09561 - Wu et al. (2023)Wu, Q., Bansal, G., Zhang, J., Wu, Y., Zhang, S., Zhu, E., Li, B., Jiang, L., Zhang, X., and Wang, C.
Autogen: Enabling next-gen llm applications via multi-agent conversation framework.arXiv preprint arXiv:2308.08155, 2023. https://arxiv.org/abs/2308.08155 - Wu et al. (2024a)Wu, Q., Bansal, G., Zhang, J., Wu, Y., Li, B., Zhu, E., Jiang, L., Zhang, X., Zhang, S., Liu, J., et al.
Autogen: Enabling next-gen llm applications via multi-agent conversations.In First Conference on Language Modeling, 2024a. - Wu et al. (2024b)Wu, Y., Yue, T., Zhang, S., Wang, C., and Wu, Q.
Stateflow: Enhancing llm task-solving through state-driven workflows, 2024b.URL https://arxiv.org/abs/2403.11322. - Xi et al. (2023)Xi, Z., Chen, W., Guo, X., He, W., Ding, Y., Hong, B., Zhang, M., Wang, J., Jin, S., Zhou, E., et al.
The rise and potential of large language model based agents: A survey.arXiv preprint arXiv:2309.07864, 2023. https://arxiv.org/abs/2309.07864 - Xia et al. (2024)Xia, C. S., Deng, Y., Dunn, S., and Zhang, L.
Agentless: Demystifying llm-based software engineering agents, 2024.URL https://arxiv.org/abs/2407.01489. - Xu et al. (2023)Xu, Z., Shi, S., Hu, B., Yu, J., Li, D., Zhang, M., and Wu, Y.
Towards reasoning in large language models via multi-agent peer review collaboration.arXiv preprint arXiv:2311.08152, 2023. https://arxiv.org/abs/2311.08152 - Yao et al. (2024a)Yao, S., Yu, D., Zhao, J., Shafran, I., Griffiths, T., Cao, Y., and Narasimhan, K.
Tree of thoughts: Deliberate problem solving with large language models.Advances in Neural Information Processing Systems, 36, 2024a. https://arxiv.org/abs/2305.10601 - Yao et al. (2024b)Yao, Y., Duan, J., Xu, K., Cai, Y., Sun, Z., and Zhang, Y.
A survey on large language model (llm) security and privacy: The good, the bad, and the ugly.High-Confidence Computing, pp. 100211, 2024b. https://arxiv.org/abs/2312.02003 - Yu et al. (2022)Yu, C., Velu, A., Vinitsky, E., Gao, J., Wang, Y., Bayen, A., and Wu, Y.
The surprising effectiveness of ppo in cooperative multi-agent games.Advances in Neural Information Processing Systems, 35:24611–24624, 2022. https://arxiv.org/abs/2103.01955 - Zhang et al. (2024)Zhang, H., Du, W., Shan, J., Zhou, Q., Du, Y., Tenenbaum, J. B., Shu, T., and Gan, C.
Building cooperative embodied agents modularly with large language models, 2024.URL https://arxiv.org/abs/2307.02485. - Zheng et al. (2023)Zheng, L., Chiang, W.-L., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., Lin, Z., Li, Z., Li, D., Xing, E. P., Zhang, H., Gonzalez, J. E., and Stoica, I.
Judging llm-as-a-judge with mt-bench and chatbot arena, 2023.URL https://arxiv.org/abs/2306.05685.