LLMベース・マルチエージェントシステムの構築：フレームワークから記憶、外部連携

Posted at 2025-04-13

前のエントリでは、LLMベースのマルチエージェントシステム（MAS）がどのような基本概念と構成要素、そして相互作用の原理に基づいているのかを探求しました。個々のエージェントがLLMという「脳」を持ち、知覚し、行動し、さらには役割や個性を持って互いに関わり合うことで、複雑な問題解決に挑む姿が見えてきたことでしょう。

さて、今回はその理論的な基盤の上に立ち、実際にLLMベースのMASを構築するための具体的なツール、フレームワーク、そして重要な技術要素に焦点を当てていきます。アイデアを形にするためには、適切な道具立てと設計思想が不可欠です。ここでは、開発を効率化するフレームワーク、複雑な処理の流れを管理するワークフロー、エージェントに学習と適応をもたらす記憶メカニズム、そしてLLMの知識を補強する外部知識の利用という、構築における核心的なテーマを深く掘り下げていきます。これらの要素技術を理解することは、より高度で信頼性の高いインテリジェントシステムを設計・開発するための確かな一歩となるはずです。

1. 開発を加速する土台：フレームワークとプラットフォーム

ゼロからLLMベースMASを構築するのは、たとえ概念を理解していても骨の折れる作業です。幸いなことに、開発プロセスを大幅に簡略化し、再利用可能なコンポーネントや構造を提供してくれるフレームワークやプラットフォームが登場しています。これらは、いわばシステム開発のための「足場」や「土台」であり、開発者はより本質的なロジックの実装に集中することができます。ここでは、特に注目すべきいくつかの例を見ていきましょう。

1.1. AutoGen：会話で紡ぐマルチエージェントアプリケーション

AutoGenは、Microsoft Researchによって開発された、LLMベースのマルチエージェントアプリケーション構築を強力に支援するオープンソースフレームワークです。その名の通り、「自動生成」をコンセプトの一つに掲げ、特にエージェント間の会話を通じてタスクを遂行する仕組みに重点を置いています。

AutoGenの核心的な特徴は以下の通りです。

会話可能なエージェント

AutoGenでは、LLM、人間、あるいはツールをラップしたカスタマイズ可能なエージェントを定義できます。そして、これらのエージェントは互いに会話、すなわちメッセージを交換することで協調してタスクを進めます。例えば、ユーザー（人間）がタスクを依頼すると、マネージャーエージェントがそれを分析し、コーダーエージェントに指示を出し、コーダーエージェントが生成したコードをテスターエージェントが検証する、といった連携が会話を通じて実現されます。

柔軟な会話パターン

AutoGenの強みは、単にエージェントが会話できるだけでなく、その会話パターンを柔軟に設計・カスタマイズできる点にあります。事前に定められた順番でエージェントが発言する静的な会話パターン（例えば、BabyAGIのような逐次処理）だけでなく、状況に応じて次に発言するエージェントが変わったり、特定の条件で会話が分岐したりする動的な会話パターンもサポートします。これにより、アプリケーションの要求に応じて最適なコミュニケーションフローを構築できます。

ツール利用と人間参加

LLMだけでは解決できないタスクは数多く存在します。AutoGenのエージェントは、Pythonコードの実行、外部APIの呼び出し、データベース検索といったツールをシームレスに利用できます。さらに、プロセス全体を完全に自動化するだけでなく、必要に応じて人間が会話に参加し、指示を与えたり、エージェントの提案を承認したり、軌道修正したりすることも可能です。例えば、コード実行の前に人間に確認を求めるといった安全策を組み込むことができます。

このように、AutoGenは、マルチエージェント間の協調的な対話を中心としたアプリケーション開発のための汎用的な基盤を提供し、開発者がより複雑でインタラクティブなLLMアプリケーションを効率的に構築することを可能にします。

1.2. MemGPT：LLMに無限の記憶を - OSとしての視点

LLMを利用する上で避けて通れないのが、コンテキストウィンドウの制限です。現在のLLMは、一度に処理できるテキストの量（トークン数）に上限があり、これを超えると古い情報が失われてしまいます。これは、長期的な対話や大規模な文書分析を行う上で大きなボトルネックとなります。この課題に、オペレーティングシステム（OS）のメモリ管理の概念から着想を得て立ち向かうのがMemGPT (MemoryGPT) です。

MemGPTは、LLMをあたかもOSのように扱い、限られたコンテキストウィンドウ（物理メモリに相当）を効率的に利用しつつ、それを超える情報を扱えるようにする仮想コンテキスト管理という技術を導入しています。

その主な特徴は以下の通りです。

階層型メモリシステム

MemGPTは、OSが物理メモリとディスクストレージを使い分けるのと同様に、階層的なメモリ構造を採用しています。

主要コンテキスト (Main Context): LLMが直接アクセスできる、限られたサイズの高速なメモリ領域（LLMのコンテキストウィンドウに相当）。最新の対話や現在のタスクに最も関連する情報が保持されます。
外部メモリ (External Memory): 主要コンテキストに収まらない情報を格納する、より大容量の記憶領域。アクセス頻度に応じてリコールストレージ (Recall Storage) やアーカイブストレージ (Archive Storage) といった階層に分けられることもあります。

仮想コンテキスト管理

MemGPTは、これらのメモリ階層間で情報をインテリジェントに移動させます。あたかもOSがメモリページを物理メモリとディスク間でスワップ（ページング）するように、LLMが必要とする情報を外部メモリから主要コンテキストにロードし、不要になった情報を外部メモリに退避させます。

自律的なメモリ操作

驚くべきことに、MemGPTでは、LLM自身が関数呼び出しというメカニズムを通じて、これらのメモリ操作（情報の読み書き、検索、移動）を自律的に行うことができます。例えば、「過去の会話でユーザーが言及した本のタイトルを思い出して」といった内部的な思考に基づき、LLMがメモリ検索関数を呼び出し、結果をコンテキストに取り込む、といった動作が可能になります。

この仕組みにより、MemGPTはLLMのコンテキスト長の物理的な制限を超えて、長期的な対話における一貫性の維持や、長大な文書の効果的な分析といったタスクを実現します。まさに、LLMにOSのような自己管理能力と拡張可能な記憶を与える試みと言えるでしょう。

1.3. DSPy：プロンプトと最適化の新たなプログラミングモデル

LLMアプリケーション開発においては、目的のタスクを達成するために効果的なプロンプトを設計すること（プロンプトエンジニアリング）が非常に重要ですが、試行錯誤が多くなりがちです。また、特定のタスクに合わせてLLMのファインチューニングを行うことも有効ですが、これも手間とコストがかかります。

DSPyは、このような課題に対応するために提案された新しいプログラミングモデルであり、LLMを用いたパイプライン（複数のLLM呼び出しやツール利用を組み合わせた処理フロー）の構築と最適化を体系化しようとする試みです。

DSPyの主な特徴は以下の通りです。

宣言的なパイプライン記述

DSPyでは、開発者はLLMに「何を」してほしいか（タスクの入出力仕様）を宣言的に記述します。具体的なプロンプトの文言や、思考連鎖（Chain-of-Thought）のような詳細な指示をハードコーディングするのではなく、より高レベルな処理モジュール（例：dspy.ChainOfThought('question -> answer')）を組み合わせる形でパイプラインを定義します。

自動的なプロンプト最適化

DSPyの最大の特徴は、定義されたパイプラインと、開発者が提供する少数の評価用データ（入力と望ましい出力のペア）、そして評価指標に基づいて、最適なプロンプトやFew-shot例を自動的に探索・生成してくれる点です（このプロセスを「コンパイル」と呼びます）。これにより、手作業によるプロンプトの試行錯誤を大幅に削減できます。

LLMと手法の抽象化

DSPyは、背後で使用するLLM（GPT-3.5, GPT-4, Llamaなど）や、プロンプティング手法（CoT, ReActなど）を抽象化します。これにより、開発者はパイプラインのロジックに集中でき、異なるLLMや手法への切り替えも容易になります。

DSPyは、LLMアプリケーション開発におけるプロンプトエンジニアリングと、場合によってはファインチューニングのプロセスを、よりシステマティックかつ効率的に行うための強力なツールとなり得ます。

これらのフレームワークやプラットフォームは、それぞれ異なる焦点とアプローチを持っていますが、いずれもLLMベースMASの開発を支援し、より高度な機能を実現するための重要な基盤を提供しています。

2. 複雑なタスクを導く設計図：ワークフローと状態管理

LLMベースのエージェントに複雑なタスクを任せる場合、単に自然言語で指示を与えるだけでは、意図した通りに処理が進まないことがあります。特に、複数のステップを踏んだり、外部ツールと連携したり、エラー処理が必要になったりするようなタスクでは、処理の流れ（ワークフロー）を明確に定義し、現在の状況（状態）を適切に管理する仕組みが重要になります。

2.1. StateFlow：タスク解決を状態遷移で制御する

この課題に対する有望なアプローチの一つが、StateFlowパラダイムです。StateFlowは、複雑なタスク解決プロセスを、コンピュータサイエンスでお馴染みの状態機械（State Machine） として捉え直すことを提案します。これは、タスクの進行をより構造化し、制御性と解釈可能性を高めることを目的としています。

StateFlowの核心的なアイデアは、タスク解決プロセスを二つの側面から明確に分離することです。

プロセス接地 (Process Grounding)

これは、タスク全体の流れを状態 (State) と状態遷移 (State Transition) によって管理することです。各「状態」は、タスク遂行における特定の段階（例：「初期化」「情報収集」「計画立案」「実行」「検証」「エラー処理」）を表します。そして、「状態遷移」は、現在の状態とこれまでの処理履歴（文脈）に基づいて、次にどの状態に進むべきかを決定するルールです。これにより、タスクが今どの段階にあるのか、次に何が行われるのかが明確になります。

サブタスク解決 (Sub-task Solving)

これは、特定の「状態」にいる間に行われる具体的なアクション (Action) を指します。アクションには、特定のプロンプトを与えてLLMを呼び出すことや、計算、ファイル操作、API呼び出しといった外部ツールを利用することが含まれます。各状態は、その状態固有の目標達成に必要なアクションを実行します。

この二つの側面を分離することで、StateFlowはタスク全体の制御（状態遷移）と、個々のステップの実行（アクション）を分けて考えることを可能にします。

2.2. StateFlowの形式的定義と具体例

StateFlowモデルは、より厳密には以下の六つ組 <S, s0, F, δ, Γ, Ω> として形式的に定義されます。

S: 状態の有限集合。
s0: 初期状態。
F: 最終状態の集合 (F ⊆ S)。
δ: 状態遷移関数 (δ: S × Γ* → S)。現在の状態と文脈履歴$Γ^*$（後述）から次の状態を決定します。
Γ: メッセージ（プロンプト、LLM応答、ツール/環境からのフィードバック）の集合。$Γ^*$ はこれまでのメッセージ履歴（文脈履歴）を表します。
Ω: 出力関数（アクション）の集合。各状態 s に関連付けられたアクション [ω₁, …, ωᵢ] があり、各 $ω$ は文脈履歴 $ Γ^* $ を入力としてメッセージ $Γ$ を出力します ($ω: Γ^* → Γ$)。

状態遷移関数 δ は、LLMの応答やツールの出力に含まれる特定の文字列を検出する静的なルール（例：「"Error"が含まれていたらエラー状態へ」）や、LLM自身に状況判断をさせて次の状態を決定させる動的なチェックによって実装されます。

StateFlowは、例えばInterCode（SQLやBashコマンドの実行タスク）やALFWorld（テキストベースの対話型環境シミュレーション）といったベンチマークでその有効性が示されています。InterCode SQLタスクでは、「Observe（DBスキーマ観察）」「Solve（SQL生成・実行）」「Verify（結果検証）」「Error（エラー処理）」といった状態を定義し、状態遷移を管理することで、LLMがより系統的にタスクに取り組めるようになります。

2.3. StateFlowの利点と既存手法との比較

StateFlowを導入することには、いくつかの重要な利点があります。

効率性の向上: 各状態において、そのサブタスクに特化したプロンプトやツール利用を行うため、LLMへの入力（コンテキスト）が冗長になりにくく、APIコスト（トークン使用量）を削減できる可能性があります。実際に、InterCode SQLタスクではReAct（ReasoningとActingを交互に行う手法）と比較して大幅なコスト削減が報告されています。
制御性と信頼性の向上: 状態と遷移が明確に定義されているため、タスクの進行状況を把握しやすく、予期せぬエラーが発生した場合でも、専用のエラー状態に遷移して適切な処理を行うなど、よりロバストな制御が可能になります。これにより、タスクの成功率向上が期待できます。
解釈可能性の向上: タスク解決プロセスが状態遷移図として視覚化できるため、システムがどのように動作しているのか、なぜ特定の行動をとったのかを理解しやすくなります。これは、デバッグやシステムの改善に役立ちます。

StateFlowは、ReActやTree of Thoughts (ToTs) といった他のLLMエージェント制御手法と比較されます。ReActが思考と行動の直線的な連鎖に焦点を当てるのに対し、StateFlowはより高レベルなワークフロー構造を状態遷移によって管理します。ToTsが推論パスの探索に重点を置くのに対し、StateFlowは定義されたワークフローに沿った実行制御に強みがあります。また、StateFlowはReflexion（過去の失敗から学び、自己修正する手法）のような反復改善メカニズムとも組み合わせやすく、さらなる性能向上が可能です。

StateFlowは、複雑なマルチステップタスクをLLMに実行させる上で、そのプロセスを構造化し、信頼性と効率性を高めるための有望なパラダイムと言えるでしょう。

3. エージェントの「経験」を力に：記憶メカニズムの進化

人間が過去の経験から学び、同じような状況に遭遇した際に以前よりもうまく対処できるように、LLMベースのエージェントにも記憶と学習の能力を持たせることは、その知能と適応性を高める上で不可欠です。前述のMemGPTはコンテキスト長を超える記憶を実現する一つのアプローチでしたが、ここではさらに、経験から具体的な行動パターン（ワークフロー）を学習するメカニズムや、階層的な記憶構造の重要性について掘り下げます。

3.1. Agent Workflow Memory (AWM)：経験からルーチンを学習する

人間は、日常的なタスク（例えば、特定のWebサイトでのログイン操作）を繰り返すうちに、その手順をルーチンとして記憶し、次回からは意識せずともスムーズにこなせるようになります。Agent Workflow Memory (AWM) は、この人間の学習プロセスにヒントを得て、LLMエージェントが過去のタスク遂行経験から再利用可能なタスクルーチン、すなわちワークフローを自動的に学習・記憶するためのメカニズムです。

AWMの主要なコンセプトは以下の通りです。

ワークフローの誘導

AWMは、エージェントがタスクを成功させた際の行動軌跡（観察とアクションのシーケンス）を入力として、その中に含まれる共通のサブルーチンをワークフローとして抽出（誘導）します。この誘導は、LM（言語モデル）自身にプロンプトを与えて行われます。LMは、具体的な値（例：「猫用ドライフード」）を一般的なプレースホルダー（例：「{商品名}」）に抽象化するなどして、汎用性の高いワークフローを生成するように促されます。

オフラインとオンラインの適用

ワークフローの誘導は、事前に収集されたトレーニングデータを用いてオフラインで行うことも、エージェントがタスクを実行しながらリアルタイムで学習していくオンラインで行うことも可能です。オンラインシナリオでは、エージェントはタスクに成功するたびに経験からワークフローを抽出し、自身のメモリを更新していきます。

メモリへの統合と利用

誘導されたワークフローは、ワークフロー記述（そのワークフローが何をするかの自然言語説明） とアクションのシーケンスのペアとして、エージェントの補助メモリに保存されます。将来、類似のタスクに遭遇した場合、エージェントはこのメモリを参照し、関連するワークフローをガイドとして利用することで、より効率的かつ確実にタスクを遂行できるようになります。

表現形式と応用

ワークフローのアクションシーケンスは、主にCLICK({button_id})のようなプログラム形式で表現されますが、自然言語によるテキスト形式での表現も比較検討されています。さらに、誘導されたワークフローを単なるガイドとしてだけでなく、エージェントが直接呼び出せる高レベルなアクションとして行動空間に追加するAWMAS (AWM as Action Space) というアプローチも探求されています。

AWMは、特にWebナビゲーションのような定型的な操作が多く含まれるタスクにおいて有効性が示されており、Mind2WebやWebArenaといったベンチマークで、ベースラインと比較してタスク成功率を大幅に向上させています。これは、AWMがエージェントに「経験から学ぶ能力」を与え、効率的な行動パターンを蓄積・再利用させることに成功している証左と言えるでしょう。

3.2. MemGPTにおける階層型メモリ：長期文脈の鍵

ここで再び、MemGPTにおける階層型メモリシステムに注目してみましょう。AWMが経験に基づく行動パターンの記憶に焦点を当てているのに対し、MemGPTの階層型メモリは、より汎用的な長期的な文脈理解を維持するための基盤技術を提供します。

前述の通り、MemGPTはLLMの限られた主要コンテキスト（Main Context） と、大容量の外部メモリ（External Memory） を組み合わせ、OSの仮想メモリ管理のように情報を動的に移動させます。この仕組みが、なぜ長期的な文脈理解に繋がるのでしょうか？

それは、対話やタスク遂行の過程で生成される膨大な情報の中から、LLMが自律的に重要だと判断した情報を外部メモリに保存し、後で必要になった際にそれを検索して主要コンテキストに呼び戻すことができるからです。

例えば、ユーザーとの長い対話セッションにおいて、数時間前に話した内容や、ユーザーが以前に示した好みに関する情報が外部メモリに保存されていれば、LLM（MemGPTによって制御されている）は、現在の対話に関連する過去の情報を検索し、それを踏まえた応答を生成することができます。これにより、あたかもLLMが過去のやり取りを「覚えている」かのような、一貫性のある、パーソナライズされたインタラクションが可能になります。同様に、長大な文書を分析する際にも、文書全体を外部メモリに格納しておき、質問応答に必要な箇所だけを適宜、主要コンテキストにロードして処理することで、コンテキスト長の制約を受けずに文書全体の情報を扱えるようになります。

このように、MemGPTの階層型メモリシステムは、情報を効率的に管理・アクセスするための汎用的な仕組みを提供し、LLMエージェントが時間的にも空間的にも広範な文脈を理解し、それに基づいて行動するための重要な基盤となっているのです。AWMのような特定の知識（ワークフロー）を記憶するメカニズムも、この階層型メモリの上で実装されることが考えられます。

4. LLMを世界と繋ぐ：外部知識の活用戦略

LLMは膨大なテキストデータで事前学習されており、驚くほど広範な知識を持っています。しかし、その知識は学習データが収集された時点までの情報に限られており、最新の情報には追随できません。また、特定の専門分野に関する深い知識や、社内データベースのような非公開情報を持っているわけでもありません。さらに、LLMは時としてハルシネーション（もっともらしい嘘や不正確な情報）を生成するという問題も抱えています。

これらの限界を克服し、LLMの応答の信頼性と有用性を高めるためには、LLMを外部の知識ソースと連携させることが不可欠です。ここでは、そのためのアーキテクチャの一例としてLLM-AUGMENTERを紹介します。

4.1. LLM-AUGMENTER：外部知識で応答を強化するアーキテクチャ

LLM-AUGMENTERは、LLM（特にChatGPTのようなブラックボックスLLMを想定）の能力を、外部知識との連携によって強化（augment）するための、プラグアンドプレイ（PnP）モジュールで構成されたアーキテクチャです。その目的は、LLMのハルシネーションを抑制し、事実に基づいた、より正確で最新の情報を含む応答を生成させることにあります。

LLM-AUGMENTERは、以下のような複数のコンポーネントが連携して動作します。

LLM: 中核となる応答生成エンジン。
AIエージェント: システム全体の制御を担当。ユーザーのクエリを受け取り、どの外部知識を使うか、どのツールを呼び出すかなどをポリシー（Policy） に基づいて決定します。
外部知識 (External Knowledge): ニュース記事、Wikipedia、企業データベース、タスク固有データセットなど、LLMの内部知識を補完するための情報源。
アクションエグゼキュータ - 知識コンソリデーター (Action Executor - Knowledge Consolidator):
- アクションエグゼキュータ: 外部知識ソースへの検索クエリ発行や、その他の外部ツール呼び出しといったアクションを実行します。
- 知識コンソリデーター: 複数の情報源から検索された知識を整理・統合します。例えば、関連情報を連結したり、矛盾を検出したり、複数の証拠をつなぎ合わせて推論チェーンを形成したりします。これにより、LLMが利用しやすい形に知識を加工します。
プロンプトエンジン (Prompt Engine): ユーザーのクエリと、検索・統合された外部知識を組み合わせて、LLMへの効果的なプロンプトを構築します。
ユーティリティ (Utility): LLMが生成した応答の品質を評価します。例えば、事実性、関連性、流暢さなどをスコアリングします。問題（例：ハルシネーション）が検出された場合、具体的なフィードバックを生成します。
ワーキングメモリ (Working Memory): 各モジュールが処理の途中で情報を一時的に保持するための領域。
環境 (Environment): ユーザーや外部システムとのインターフェース。

4.2. 外部知識連携のプロセスと効果

LLM-AUGMENTERの動作プロセスは、概ね以下のようになります。

ユーザーからのクエリをAIエージェントが受け取る。
AIエージェントはポリシーに基づき、関連する外部知識ソースを決定し、アクションエグゼキュータに検索を指示。
アクションエグゼキュータが外部知識を検索し、知識コンソリデーターがそれを整理・統合。
プロンプトエンジンが、元のクエリと加工された外部知識を用いてLLMへのプロンプトを作成。
LLMがプロンプトに基づいて応答を生成。
ユーティリティが応答を評価。問題がなければユーザーに提示。
もし応答に問題があれば、ユーティリティがフィードバックを生成し、プロンプトエンジンがそれを反映してプロンプトを修正し、LLMに再試行を促す（Iterative Augmentation）。

この仕組みにより、LLM-AUGMENTERは以下のような効果をもたらします。

ハルシネーションの大幅な削減: 応答生成の根拠として外部知識を用いるため、LLMが不確かな内部知識に頼る必要がなくなり、事実に基づかない情報の生成が抑制されます。
事実性・最新性の向上: 最新のニュースや専門的なデータベースを参照できるため、LLMはより正確でタイムリーな情報を提供できます。
応答の質の向上: 外部知識による情報の補強と、ユーティリティによるフィードバックループを通じて、より網羅的で信頼性の高い応答が期待できます。

実際に、タスク指向対話やWiki質問応答のタスクにおいて、LLM-AUGMENTERはベースラインとなるLLM（ChatGPT）と比較して、応答の有用性や事実性を大幅に向上させることが実証されています。

LLM-AUGMENTERは、LLMを単体で使うのではなく、外部の知識やツールと連携させる「検索拡張生成（Retrieval-Augmented Generation, RAG）」と呼ばれるアプローチの一種と捉えることができます。このような外部連携は、LLMを現実世界のアプリケーションで実用的に活用していく上で、ますます重要になる技術です。

5. まとめ：部品を組み合わせて、より賢いシステムへ

今回、LLMベースのマルチエージェントシステム（MAS）を実際に構築する際に役立つ、具体的なフレームワーク、設計パラダイム、そして重要な技術要素について解説してきました。

AutoGenのようなフレームワークは、エージェント間の会話を中心とした協調的なアプリケーション開発を加速させます。
MemGPTは、OSのメモリ管理に着想を得て、LLMのコンテキスト長制限を克服し、長期的な記憶を実現します。
DSPy（補足）は、プロンプトエンジニアリングと最適化を体系化し、LLMパイプライン構築を効率化します。
StateFlowパラダイムは、複雑なタスク解決プロセスを状態機械としてモデル化し、制御性と信頼性を高めます。
Agent Workflow Memory (AWM) は、エージェントが経験から行動ルーチン（ワークフロー）を学習・記憶し、再利用することを可能にします。
LLM-AUGMENTERのようなアーキテクチャは、LLMを外部の知識ソースと連携させることで、その応答の信頼性と有用性を向上させます。

これらのツールやテクニックは、それぞれがLLMベースMAS開発における特定の課題に対応するために考案されたものです。そして重要なのは、これらの要素技術は互いに独立しているわけではなく、しばしば組み合わせて利用されることで、より強力で洗練されたシステムが構築可能になるという点です。

例えば、AutoGenフレームワーク上で動作するエージェントが、MemGPTの階層型メモリを利用して長期的な対話履歴を保持し、StateFlowで定義されたワークフローに従ってタスクを進め、その過程でAWMによって学習したサブタスク・ワークフローを呼び出し、必要に応じてLLM-AUGMENTERの仕組みで外部知識を検索する…といった、高度な統合が考えられます。

LLMとMASの融合は、まだ始まったばかりの探求領域です。しかし、本章で紹介したような構築要素を理解し、適切に組み合わせることで、私たちはより自律的で、協調的で、そして知的なシステムの実現に、また一歩近づくことができるでしょう。

References

Anne et al. (2024)Anne, T., Syrkis, N., Elhosni, M., Turati, F., Legendre, F., Jaquier, A., and Risi, S.Harnessing language for coordination: A framework and benchmark for llm-driven multi-agent control.arXiv preprint arXiv:2412.11761, 2024.　https://arxiv.org/abs/2412.11761
Anthropic (2024a)Anthropic, Dec 2024a.URL https://www.anthropic.com/research/building-effective-agents.
Anthropic (2024b)Anthropic.Building effective agents, 2024b.URL https://www.anthropic.com/research/building-effective-agents.
Bansal et al. (2024)Bansal, G., Wortman Vaughan, J., Amershi, S., Horvitz, E., Fourney, A., Mozannar, H., Dibia, V., and Weld, D. S.
Challenges in human-agent communication.Technical Report MSR-TR-2024-53, Microsoft, December 2024.URL https://www.microsoft.com/en-us/research/publication/human-agent-interaction-challenges/
Bettini et al. (2024)Bettini, M., Prorok, A., and Moens, V.
Benchmark: Benchmarking multi-agent reinforcement learning.Journal of Machine Learning Research, 25(217):1–10, 2024. https://arxiv.org/abs/2312.01472
Chakraborty & Purkayastha (2023)Chakraborty, B. and Purkayastha, D.
Servicenow: From startup to world’s most innovative company.IUP Journal of Entrepreneurship Development, 20(1), 2023. https://www.icmrindia.org/casestudies/catalogue/Leadership and Entrepreneurship/LDEN155.htm
Chan et al. (2023)Chan, C.-M., Chen, W., Su, Y., Yu, J., Xue, W., Zhang, S., Fu, J., and Liu, Z.
Chateval: Towards better llm-based evaluators through multi-agent debate.arXiv preprint arXiv:2308.07201, 2023. https://arxiv.org/abs/2308.07201
Chen et al. (2024a)Chen, L., Davis, J. Q., Hanin, B., Bailis, P., Stoica, I., Zaharia, M., and Zou, J.
Are more llm calls all you need? towards scaling laws of compound inference systems.arXiv preprint arXiv:2403.02419, 2024a. https://arxiv.org/abs/2403.02419
Chen et al. (2024b)Chen, W., Yuan, J., Qian, C., Yang, C., Liu, Z., and Sun, M.
Optima: Optimizing effectiveness and efficiency for llm-based multi-agent system.arXiv preprint arXiv:2410.08115, 2024b. https://arxiv.org/abs/2410.08115
Cheng et al. (2024)Cheng, Y., Zhang, C., Zhang, Z., Meng, X., Hong, S., Li, W., Wang, Z., Wang, Z., Yin, F., Zhao, J., et al.
Exploring large language model based intelligent agents: Definitions, methods, and prospects.arXiv preprint arXiv:2401.03428, 2024. https://arxiv.org/abs/2401.03428
Cobbe et al. (2021)Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Jun, H., Kaiser, L., Plappert, M., Tworek, J., Hilton, J., Nakano, R., et al.
Training verifiers to solve math word problems.arXiv preprint arXiv:2110.14168, 2021. https://arxiv.org/abs/2110.14168
Draucker et al. (2007)Draucker, C. B., Martsolf, D. S., Ross, R., and Rusk, T. B.
Theoretical sampling and category development in grounded theory.Qualitative health research, 17(8):1137–1148, 2007.
Du et al. (2023)Du, Y., Li, S., Torralba, A., Tenenbaum, J. B., and Mordatch, I.
Improving factuality and reasoning in language models through multiagent debate, 2023.URL https://arxiv.org/abs/2305.14325.
Glaser & Strauss (1967)Glaser, B. G. and Strauss, A. L.
The Discovery of Grounded Theory: Strategies for Qualitative Research.Aldine Publishing Company, 1967.
Gottweis et al. (2025)Gottweis, J., Weng, W.-H., Daryin, A., Tu, T., Palepu, A., Sirkovic, P., Myaskovsky, A., Weissenberger, F., Rong, K., Tanno, R., Saab, K., Popovici, D., Blum, J., Zhang, F., Chou, K., Hassidim, A., Gokturk, B., Vahdat, A., Kohli, P., Matias, Y., Carroll, A., Kulkarni, K., Tomasev, N., Guan, Y., Dhillon, V., Vaishnav, E. D., Lee, B., Costa, T. R. D., Penadés, J. R., Peltz, G., Xu, Y., Pawlosky, A., Karthikesalingam, A., and Natarajan, V.
Towards an ai co-scientist, 2025.URL https://arxiv.org/abs/2502.18864.
Guo et al. (2024a)Guo, T., Chen, X., Wang, Y., Chang, R., Pei, S., Chawla, N. V., Wiest, O., and Zhang, X.
Large language model based multi-agents: A survey of progress and challenges.arXiv preprint arXiv:2402.01680, 2024a. https://arxiv.org/abs/2402.01680
Guo et al. (2024b)Guo, X., Shi, D., Yu, J., and Fan, W.
Heterogeneous multi-agent reinforcement learning for zero-shot scalable collaboration.arXiv preprint arXiv:2404.03869, 2024b. https://arxiv.org/abs/2404.03869
Haji et al. (2024)Haji, F., Bethany, M., Tabar, M., Chiang, J., Rios, A., and Najafirad, P.
Improving llm reasoning with multi-agent tree-of-thought validator agent.arXiv preprint arXiv:2409.11527, 2024. https://arxiv.org/abs/2409.11527
He et al. (2024a)He, J., Rungta, M., Koleczek, D., Sekhon, A., Wang, F. X., and Hasan, S.
Does prompt formatting have any impact on llm performance?arXiv preprint arXiv:2411.10541, 2024a. https://arxiv.org/abs/2411.10541
He et al. (2024b)He, J., Treude, C., and Lo, D.
Llm-based multi-agent systems for software engineering: Vision and the road ahead, 2024b.URL https://arxiv.org/abs/2404.04834.
Hong et al. (2023)Hong, S., Zheng, X., Chen, J., Cheng, Y., Wang, J., Zhang, C., Wang, Z., Yau, S. K. S., Lin, Z., Zhou, L., et al.
Metagpt: Meta programming for multi-agent collaborative framework.arXiv preprint arXiv:2308.00352, 2023. https://arxiv.org/abs/2308.00352
Horvitz (1999)Horvitz, E.
Uncertainty, action, and interaction: In pursuit of mixed-initiative computing.IEEE Intelligent Systems, 14(5):17–20, 1999. http://erichorvitz.com/ftp/mixedin.pdf
Jain et al. (2024)Jain, K., Synnaeve, G., and Rozière, B.
Testgeneval: A real world unit test generation and test completion benchmark.arXiv preprint arXiv:2410.00752, 2024. https://arxiv.org/abs/2410.00752
Jiang & Lu (2018)Jiang, J. and Lu, Z.
Learning attentional communication for multi-agent cooperation.Advances in neural information processing systems, 31, 2018. https://arxiv.org/abs/1805.07733
Jimenez et al. (2024)Jimenez, C. E., Yang, J., Wettig, A., Yao, S., Pei, K., Press, O., and Narasimhan, K. R.
SWE-bench: Can language models resolve real-world github issues?In The Twelfth International Conference on Learning Representations, 2024.
URL https://openreview.net/forum?id=VTF8yNQM66.
https://arxiv.org/abs/2310.06770
Kapanipathi et al. (2020)Kapanipathi, P., Abdelaziz, I., Ravishankar, S., Roukos, S., Gray, A., Astudillo, R., Chang, M., Cornelio, C., Dana, S., Fokoue, A., et al.
Question answering over knowledge bases by leveraging semantic parsing and neuro-symbolic reasoning.arXiv preprint arXiv:2012.01707, 2020. https://www.academia.edu/68569473/Question_Answering_over_Knowledge_Bases_by_Leveraging_Semantic_Parsing_and_Neuro_Symbolic_Reasoning
https://arxiv.org/abs/2012.01707
Kapoor et al. (2024)Kapoor, S., Stroebl, B., Siegel, Z. S., Nadgir, N., and Narayanan, A.
Ai agents that matter, 2024.URL https://arxiv.org/abs/2407.01502.
Khandkar (2009)Khandkar, S. H.
Open coding.University of Calgary, 23(2009):2009, 2009.
Khattab et al. (2023)Khattab, O., Singhvi, A., Maheshwari, P., Zhang, Z., Santhanam, K., Vardhamanan, S., Haq, S., Sharma, A., Joshi, T. T., Moazam, H., Miller, H., Zaharia, M., and Potts, C.
Dspy: Compiling declarative language model calls into self-improving pipelines, 2023.URL https://arxiv.org/abs/2310.03714.
Lalitha et al. (2018)Lalitha, A., Javidi, T., and Sarwate, A. D.
Social learning and distributed hypothesis testing.IEEE Transactions on Information Theory, 64(9):6161–6179, 2018. https://arxiv.org/abs/1410.4307
LangChain (2024)
LangChain.Langgraph, 2024.URL https://www.langchain.com/langgraph.
Li et al. (2023)Li, G., Hammoud, H., Itani, H., Khizbullin, D., and Ghanem, B.
Camel: Communicative agents for” mind” exploration of large language model society.Advances in Neural Information Processing Systems, 36:51991–52008, 2023. https://arxiv.org/abs/2303.17760
Li et al. (2024a)Li, Q., Cui, L., Zhao, X., Kong, L., and Bi, W.
Gsm-plus: A comprehensive benchmark for evaluating the robustness of llms as mathematical problem solvers.arXiv preprint arXiv:2402.19255, 2024a. https://arxiv.org/abs/2402.19255
Li et al. (2024b)Li, X., Wang, S., Zeng, S., Wu, Y., and Yang, Y.
A survey on llm-based multi-agent systems: workflow, infrastructure, and challenges.Vicinagearth, 1(1):9, 2024b. https://arxiv.org/abs/2412.17481v2
Li et al. (2024c)Li, Z., Zang, Q., Ma, D., Guo, J., Zheng, T., Liu, M., Niu, X., Wang, Y., Yang, J., Liu, J., et al.
Autokaggle: A multi-agent framework for autonomous data science competitions.arXiv preprint arXiv:2410.20424, 2024c. https://arxiv.org/abs/2410.20424
Liang et al. (2025)Liang, X., Xiang, J., Yu, Z., Zhang, J., and Hong, S.
Openmanus: An open-source framework for building general ai agents.https://github.com/mannaandpoem/OpenManus, 2025.
Liu et al. (2023)Liu, Y., Yao, Y., Ton, J.-F., Zhang, X., Cheng, R. G. H., Klochkov, Y., Taufiq, M. F., and Li, H.
Trustworthy llms: A survey and guideline for evaluating large language models’ alignment.arXiv preprint arXiv:2308.05374, 2023. https://arxiv.org/abs/2308.05374
Long et al. (2024)Long, Q., Li, Z., Gong, R., Wu, Y. N., Terzopoulos, D., and Gao, X.
Teamcraft: A benchmark for multi-modal multi-agent systems in minecraft.arXiv preprint arXiv:2412.05255, 2024. https://arxiv.org/abs/2412.05255
Mandi et al. (2023)Mandi, Z., Jain, S., and Song, S.
Roco: Dialectic multi-robot collaboration with large language models, 2023.URL https://arxiv.org/abs/2307.04738.
McHugh (2012)McHugh, M. L.
Interrater reliability: the kappa statistic.Biochemia medica, 22(3):276–282, 2012. https://pubmed.ncbi.nlm.nih.gov/23092060/
Niu et al. (2021)Niu, Y., Paleja, R. R., and Gombolay, M. C.
Multi-agent graph-attention communication and teaming.In AAMAS, volume 21, pp. 20th, 2021. https://www.ifaamas.org/Proceedings/aamas2021/pdfs/p964.pdf
Packer et al. (2023)Packer, C., Wooders, S., Lin, K., Fang, V., Patil, S. G., Stoica, I., and Gonzalez, J. E.Memgpt: Towards llms as operating systems.arXiv preprint arXiv:2310.08560, 2023.
Packer et al. (2024)Packer, C., Wooders, S., Lin, K., Fang, V., Patil, S. G., Stoica, I., and Gonzalez, J. E.Memgpt: Towards llms as operating systems, 2024.URL https://arxiv.org/abs/2310.08560.
Park et al. (2023a)Park, J. S., O’Brien, J., Cai, C. J., Morris, M. R., Liang, P., and Bernstein, M. S.
Generative agents: Interactive simulacra of human behavior.In Proceedings of the 36th annual acm symposium on user interface software and technology, pp. 1–22, 2023a.
Park et al. (2023b)Park, J. S., O’Brien, J. C., Cai, C. J., Morris, M. R., Liang, P., and Bernstein, M. S.
Generative agents: Interactive simulacra of human behavior, 2023b.URL https://arxiv.org/abs/2304.03442.
Patil et al. (2023)Patil, S. G., Zhang, T., Wang, X., and Gonzalez, J. E.
Gorilla: Large language model connected with massive apis, 2023.URL https://arxiv.org/abs/2305.15334.
Peng et al. (2023)Peng, B., Galley, M., He, P., Cheng, H., Xie, Y., Hu, Y., Huang, Q., Liden, L., Yu, Z., Chen, W., et al.
Check your facts and try again: Improving large language models with external knowledge and automated feedback.arXiv preprint arXiv:2302.12813, 2023. https://arxiv.org/abs/2302.12813
Peng et al. (2024)Peng, J.-L., Cheng, S., Diau, E., Shih, Y.-Y., Chen, P.-H., Lin, Y.-T., and Chen, Y.-N.
A survey of useful llm evaluation.arXiv preprint arXiv:2406.00936, 2024. https://arxiv.org/abs/2406.00936
Perrow (1984)Perrow, C.Normal Accidents: Living with High-Risk Technologies.Princeton University Press, Princeton, NJ, 1984.ISBN 978-0691004129.
Phan et al. (2024)Phan, H. N., Nguyen, T. N., Nguyen, P. X., and Bui, N. D.
Hyperagent: Generalist software engineering agents to solve coding tasks at scale.arXiv preprint arXiv:2409.16299, 2024. https://arxiv.org/abs/2409.16299
Qian et al. (2023)Qian, C., Liu, W., Liu, H., Chen, N., Dang, Y., Li, J., Yang, C., Chen, W., Su, Y., Cong, X., Xu, J., Li, D., Liu, Z., and Sun, M.
Chatdev: Communicative agents for software development.arXiv preprint arXiv:2307.07924, 2023.URL https://arxiv.org/abs/2307.07924.
Qian et al. (2024)Qian, C., Liu, W., Liu, H., Chen, N., Dang, Y., Li, J., Yang, C., Chen, W., Su, Y., Cong, X., et al.
Chatdev: Communicative agents for software development.In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 15174–15186, 2024. https://aclanthology.org/2024.acl-long.810/
Roberts & Rousseau (1989)Roberts, K. and Rousseau, D.
Research in nearly failure-free, high-reliability organizations: having the bubble.IEEE Transactions on Engineering Management, 36(2):132–139, 1989.doi: 10.1109/17.18830. https://ieeexplore.ieee.org/document/18830
Roberts (1989)Roberts, K. H.
New challenges in organizational research: High reliability organizations.Organization & Environment, 3(2):111–125, 1989.doi: 10.1177/108602668900300202. https://journals.sagepub.com/doi/10.1177/108602668900300202
Rochlin (1996)Rochlin, G. I.
Reliable organizations: Present research and future directions.Journal of contingencies and crisis management., 4(2), 1996.ISSN 0966-0879. https://onlinelibrary.wiley.com/doi/10.1111/j.1468-5973.1996.tb00077.x
Singh et al. (2018)Singh, A., Jain, T., and Sukhbaatar, S.
Learning when to communicate at scale in multiagent cooperative and competitive tasks.arXiv preprint arXiv:1812.09755, 2018. https://arxiv.org/abs/1812.09755
Stoica et al. (2024a)Stoica, I., Zaharia, M., Gonzalez, J., Goldberg, K., Sen, K., Zhang, H., Angelopoulos, A., Patil, S. G., Chen, L., Chiang, W.-L., and Davis, J. Q.
Specifications: The missing link to making the development of llm systems an engineering discipline, 2024a.URL https://arxiv.org/abs/2412.05299.
Stoica et al. (2024b)Stoica, I., Zaharia, M., Gonzalez, J., Goldberg, K., Zhang, H., Angelopoulos, A., Patil, S. G., Chen, L., Chiang, W.-L., and Davis, J. Q.
Specifications: The missing link to making the development of llm systems an engineering discipline.arXiv preprint arXiv:2412.05299, 2024b.
Stroebl et al. (2024)Stroebl, B., Kapoor, S., and Narayanan, A.
Inference scaling f laws: The limits of llm resampling with imperfect verifiers.arXiv preprint arXiv:2411.17501, 2024. https://arxiv.org/abs/2411.17501
Swanson et al. (2024)Swanson, K., Wu, W., Bulaong, N. L., Pak, J. E., and Zou, J.
The virtual lab: Ai agents design new sars-cov-2 nanobodies with experimental validation.bioRxiv, 2024.doi: 10.1101/2024.11.11.623004.URL https://www.biorxiv.org/content/early/2024/11/12/2024.11.11.623004.
Talebirad & Nadiri (2023)Talebirad, Y. and Nadiri, A.
Multi-agent collaboration: Harnessing the power of intelligent llm agents.arXiv preprint arXiv:2306.03314, 2023. https://arxiv.org/abs/2306.03314
Tolstoy (1878)Tolstoy, L.Anna Karenina.The Russian Messenger, 1878.
Trivedi et al. (2024)Trivedi, H., Khot, T., Hartmann, M., Manku, R., Dong, V., Li, E., Gupta, S., Sabharwal, A., and Balasubramanian, N.
Appworld: A controllable world of apps and people for benchmarking interactive coding agents.arXiv preprint arXiv:2407.18901, 2024. https://arxiv.org/abs/2407.18901
Wang et al. (2024a)Wang, L., Ma, C., Feng, X., Zhang, Z., Yang, H., Zhang, J., Chen, Z., Tang, J., Chen, X., Lin, Y., Zhao, W. X., Wei, Z., and Wen, J.
A survey on large language model based autonomous agents.Frontiers of Computer Science, 18(6), March 2024a.ISSN 2095-2236.doi: 10.1007/s11704-024-40231-1.URL http://dx.doi.org/10.1007/s11704-024-40231-1.
Wang et al. (2024b)Wang, L., Ma, C., Feng, X., Zhang, Z., Yang, H., Zhang, J., Chen, Z., Tang, J., Chen, X., Lin, Y., et al.
A survey on large language model based autonomous agents.Frontiers of Computer Science, 18(6):186345, 2024b. https://arxiv.org/abs/2308.11432
Wang et al. (2024c)Wang, W., Zhang, D., Feng, T., Wang, B., and Tang, J.
Battleagentbench: A benchmark for evaluating cooperation and competition capabilities of language models in multi-agent systems.arXiv preprint arXiv:2408.15971, 2024c. https://arxiv.org/abs/2408.15971
Wang et al. (2024d)Wang, X., Li, B., Song, Y., Xu, F. F., Tang, X., Zhuge, M., Pan, J., Song, Y., Li, B., Singh, J., Tran, H. H., Li, F., Ma, R., Zheng, M., Qian, B., Shao, Y., Muennighoff, N., Zhang, Y., Hui, B., Lin, J., Brennan, R., Peng, H., Ji, H., and Neubig, G.
Openhands: An open platform for ai software developers as generalist agents, 2024d.URL https://arxiv.org/abs/2407.16741.
Wang et al. (2024e)Wang, Z. Z., Mao, J., Fried, D., and Neubig, G.
Agent workflow memory, 2024e.URL https://arxiv.org/abs/2409.07429.
Weng et al. (2023)Weng, Y., Zhu, M., Xia, F., Li, B., He, S., Liu, S., Sun, B., Liu, K., and Zhao, J.
Large language models are better reasoners with self-verification.In The 2023 Conference on Empirical Methods in Natural Language Processing, 2023. https://arxiv.org/abs/2212.09561
Wu et al. (2023)Wu, Q., Bansal, G., Zhang, J., Wu, Y., Zhang, S., Zhu, E., Li, B., Jiang, L., Zhang, X., and Wang, C.
Autogen: Enabling next-gen llm applications via multi-agent conversation framework.arXiv preprint arXiv:2308.08155, 2023. https://arxiv.org/abs/2308.08155
Wu et al. (2024a)Wu, Q., Bansal, G., Zhang, J., Wu, Y., Li, B., Zhu, E., Jiang, L., Zhang, X., Zhang, S., Liu, J., et al.
Autogen: Enabling next-gen llm applications via multi-agent conversations.In First Conference on Language Modeling, 2024a.
Wu et al. (2024b)Wu, Y., Yue, T., Zhang, S., Wang, C., and Wu, Q.
Stateflow: Enhancing llm task-solving through state-driven workflows, 2024b.URL https://arxiv.org/abs/2403.11322.
Xi et al. (2023)Xi, Z., Chen, W., Guo, X., He, W., Ding, Y., Hong, B., Zhang, M., Wang, J., Jin, S., Zhou, E., et al.
The rise and potential of large language model based agents: A survey.arXiv preprint arXiv:2309.07864, 2023. https://arxiv.org/abs/2309.07864
Xia et al. (2024)Xia, C. S., Deng, Y., Dunn, S., and Zhang, L.
Agentless: Demystifying llm-based software engineering agents, 2024.URL https://arxiv.org/abs/2407.01489.
Xu et al. (2023)Xu, Z., Shi, S., Hu, B., Yu, J., Li, D., Zhang, M., and Wu, Y.
Towards reasoning in large language models via multi-agent peer review collaboration.arXiv preprint arXiv:2311.08152, 2023. https://arxiv.org/abs/2311.08152
Yao et al. (2024a)Yao, S., Yu, D., Zhao, J., Shafran, I., Griffiths, T., Cao, Y., and Narasimhan, K.
Tree of thoughts: Deliberate problem solving with large language models.Advances in Neural Information Processing Systems, 36, 2024a. https://arxiv.org/abs/2305.10601
Yao et al. (2024b)Yao, Y., Duan, J., Xu, K., Cai, Y., Sun, Z., and Zhang, Y.
A survey on large language model (llm) security and privacy: The good, the bad, and the ugly.High-Confidence Computing, pp. 100211, 2024b. https://arxiv.org/abs/2312.02003
Yu et al. (2022)Yu, C., Velu, A., Vinitsky, E., Gao, J., Wang, Y., Bayen, A., and Wu, Y.
The surprising effectiveness of ppo in cooperative multi-agent games.Advances in Neural Information Processing Systems, 35:24611–24624, 2022. https://arxiv.org/abs/2103.01955
Zhang et al. (2024)Zhang, H., Du, W., Shan, J., Zhou, Q., Du, Y., Tenenbaum, J. B., Shu, T., and Gan, C.
Building cooperative embodied agents modularly with large language models, 2024.URL https://arxiv.org/abs/2307.02485.
Zheng et al. (2023)Zheng, L., Chiang, W.-L., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., Lin, Z., Li, Z., Li, D., Xing, E. P., Zhang, H., Gonzalez, J. E., and Stoica, I.
Judging llm-as-a-judge with mt-bench and chatbot arena, 2023.URL https://arxiv.org/abs/2306.05685.

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up