はじめに
OpenAI
、Anthropic
、Perplexity
などが提供する高度なリサーチエージェントは、現代のAIアプリケーションの中でも特に注目を集めています。これらのエージェントは、複数の情報源から文脈を理解し、包括的なレポートを生成する能力を持っています。
このような背景の中、よりシンプルで設定の自由度が高いオープンソースの代替としてOpen Deep Research
が登場しました。この記事では、LangGraph
を基盤として構築されたこのエージェントのアーキテクチャを深く掘り下げ、その設計思想と技術的な詳細を解説します。
目次
- LangGraphで構築する自律型AIエージェント:Open Deep Researchアーキテクチャの徹底解説
Part 1: Open Deep Researchの概要
Chapter 1.1: アーキテクチャの全体像
Open Deep Research
は、人間がリサーチを行うプロセスを模倣した自律型エージェントです。その構造は、大きく分けて3つのフェーズから構成されています。これは、まるでリサーチプロジェクトを立ち上げ、調査・分析し、最終報告書をまとめるという、一連の知的生産活動のメタファーと捉えることができます。
- Scope (スコープ定義): ユーザーの要求を明確にし、リサーチの指針となる「概要書」を作成する。
- Research (リサーチ実行): 概要書に基づき、複数のサブエージェントが並行して情報収集を行う。
- Write (レポート生成): 収集されたすべての情報を統合し、一貫性のある最終レポートを生成する。
この3段階のプロセスにより、複雑な要求に対しても構造化されたアプローチで対応することが可能となります。
Chapter 1.2: 主要な設計思想
このエージェントの核心には、いくつかの重要な設計思想が存在します。
- 柔軟性 (Flexibility): ユーザーの要求に応じて、リサーチ戦略を動的に変更する能力。単純な事実確認から、複数製品の比較分析まで、タスクの性質に合わせてアプローチを最適化します。
- 並列処理 (Parallelization): 複雑なリサーチタスクを独立したサブタスクに分解し、複数のサブエージェントが同時に処理することで、情報収集の効率を最大化します。
- コンテキスト管理 (Context Management): トークン数の肥大化を防ぎ、エージェントの注意を維持するための高度なコンテキストエンジニアリング。これにより、コスト削減とモデルの性能維持を両立させます。
Part 1 まとめ
Open Deep Research
は、Scope、Research、Writeの3フェーズから成る、人間の思考プロセスを模したアーキテクチャを採用しています。その設計は、柔軟性、並列処理、コンテキスト管理という3つの柱に支えられており、これにより複雑なリサーチタスクにも効率的かつ高品質に対応することが可能となっています。
Part 2: 各フェーズの詳細な解説
Chapter 2.1: フェーズ1 - Scope (スコープ定義) 🎯
リサーチの品質は、その出発点である「問いの質」に大きく依存します。Scopeフェーズの目的は、曖昧なユーザー要求を具体的で実行可能なリサーチ計画へと昇華させることです。
Section 2.1.1: User Clarification (ユーザーとの対話による明確化)
ユーザーの初期リクエストは、しばしば必要なコンテキストを欠いています。例えば、「アムステルダムとノルウェーへの格安旅行を計画して」という要求には、人数、空港の好み、都市を訪れる順序などの情報が不足しています。
エージェントは、これらの不足情報を補うために、ユーザーに追加の質問を投げかける機能を有しています。この対話的なプロセスを通じて、リサーチの精度を初期段階で大幅に向上させることが期待できます。
Section 2.1.2: Brief Generation (リサーチ概要の生成)
ユーザーとの対話が完了すると、エージェントはその全履歴(初期リクエストと追加の質疑応答)を一つの凝縮された「リサーチ概要(Research Brief)」に変換します。
この概要書は、後続のResearchフェーズとWriteフェーズ全体を通じての「北極星」として機能します。対話の過程で生じる冗長な表現やトークンの消費を抑制し、リサーチの目的を明確に保つための、極めて重要なコンテキストエンジニアリングの一環です。
Chapter 2.2: フェーズ2 - Research (リサーチ実行) 🔬
このフェーズの目標は、Scopeフェーズで作成されたリサーチ概要に基づき、必要な情報を収集することです。ここではSupervisor Agent
(監督エージェント)が中心的な役割を果たします。
Section 2.2.1: Research Supervisor (リサーチ監督エージェント)
監督エージェントの仕事はシンプルです。リサーチ概要を分析し、タスクを適切な数のサブエージェントに委任します。リサーチ概要が複数の独立したサブトピックに分解可能かどうかを判断し、各サブエージェントに分離されたコンテキストウィンドウでタスクを割り当てます。
Section 2.2.2: Research Sub-agents (リサーチサブエージェント) と並列処理
監督エージェントは、リサーチタスクを複数のサブタスクに分割し、それぞれを専門のサブエージェントに割り当てます。例えば、「旅行計画」という大きなタスクは、以下のように分解され、並行して処理される可能性があります。
- 航空券の検索
- 宿泊施設の検索
- 現地交通手段の検索
この並列処理により、システム全体としての情報収集速度が大幅に向上します。
Section 2.2.3: コンテキストの分離とクリーンアップ
各サブエージェントは、自身の担当するサブトピックにのみ集中します。これにより、単一のエージェントが複数のトピックを扱う際に生じがちな「コンテキストの衝突」やトークン数の肥大化といった問題を回避できます。
さらに、各サブエージェントはリサーチ完了後、最終的なLLMコールを行い、収集した生データ(失敗したツールコールや関連性の低いWebサイト情報など)をクリーンアップし、要約された結果のみを監督エージェントに返します。これにより、監督エージェントはノイズの少ない、処理済みの情報だけを扱うことができます。
サブエージェントによるリサーチ結果のクリーンアップは、後続のプロセスにおけるトークン使用量を大幅に削減し、システム全体の効率と安定性を高めるための重要なステップです。
Section 2.2.4: 監督エージェントによる反復的深化
監督エージェントは、サブエージェントから返された調査結果を評価し、リサーチ概要の要求を十分に満たしているか判断します。もし情報が不足していると判断した場合、追加のサブエージェントを生成し、さらなる深掘り調査を指示することができます。このように、リサーチと評価のサイクルを繰り返すことで、柔軟に調査の深度を調整します。
Chapter 2.3: フェーズ3 - Write (レポート生成) ✍️
すべてのリサーチが完了し、監督エージェントが満足する品質の情報が集まったら、最終的なレポート生成フェーズに移行します。
Section 2.3.1: One-Shot Report Generation (ワンショットでのレポート生成)
このアーキテクチャの興味深い点の一つは、レポートの各セクションを並行して執筆するのではなく、すべての調査結果を一度に最終的なライターLLMに渡し、レポート全体を「ワンショット」で生成させる点です。
初期のバージョンでは並列執筆を試みたものの、各セクション間の連携が取れず、レポート全体としての一貫性が損なわれるという問題が発生しました。この教訓から、リサーチは並列化する一方で、執筆は単一のプロセスに集約するという現在の形に至りました。
マルチエージェントによる並列処理は、タスクが容易に並列化可能である場合に有効です。レポート執筆のように、要素間の強い一貫性が求められるタスクでは、ワンショットでの生成がより良い結果を生む可能性があります。
Part 2 まとめ
Open Deep Research
の各フェーズは、明確な目的を持っています。Scopeフェーズで「問い」を磨き上げ、Researchフェーズでは監督エージェントとサブエージェントが連携して効率的に情報を収集・整理し、最後にWriteフェーズで一貫性のある高品質なレポートを生成します。この構造的なアプローチが、エージェントの強力なリサーチ能力の基盤となっています。
Part 3: 実装とカスタマイズ
Chapter 3.1: LangGraphによる実装
このエージェントの複雑な制御フローは、LangGraph
によって実現されています。LangGraph
は、状態を持つマルチエージェントワークフローを構築するためのライブラリであり、ノードとエッジを用いてエージェントの動作をグラフとして表現します。
Open Deep Research
のプロセス全体は、以下のようなグラフとしてモデル化できます。
Chapter 3.2: 設定の柔軟性
Open Deep Research
の大きな特徴は、その高い設定自由度です。ユーザーは自身のユースケースに合わせて、様々な側面をカスタマイズできます。
設定項目 | 説明 | デフォルト値 |
---|---|---|
Max Structured Output Retries |
モデルからの構造化出力の解析に失敗した場合の最大リトライ回数。 | 3 |
Allow Clarification |
リサーチ開始前にユーザーへの確認質問を許可するかどうか。 | true |
Max Concurrent Research Units |
同時に実行するサブエージェントの最大数。 | 5 |
Search API |
使用する検索API。Tavily 、OpenAI 、Anthropic などから選択可能。 |
Tavily |
Max Researcher Iterations |
監督エージェントがリサーチと評価を繰り返す最大回数。 | 3 |
Summarization Model |
検索結果の要約に使用するモデル。 | openai:gpt-4.1-nano |
Research Model |
リサーチと分析の実行に使用するモデル。 | openai:gpt-4.1 |
Final Report Model |
最終レポートの執筆に使用するモデル。 | openai:gpt-4.1 |
さらに、MCP (Model Context Protocol)
サーバーに接続することで、ファイルシステム操作などの独自のツールをエージェントに追加することも可能です。
Chapter 3.3: ローカルでの実行方法
このエージェントはオープンソースであり、誰でもローカル環境で実行し、カスタマイズすることができます。
-
リポジトリをクローンする:
git clone https://github.com/langchain-ai/open_deep_research.git
-
仮想環境を有効化し、依存関係をインストールする:
uv pip install -r pyproject.toml
-
.env.example
をコピーして.env
ファイルを作成し、APIキーなどを設定する。 -
LangGraph Studio
を起動する:langgraph dev
これにより、ブラウザ上でエージェントの動作をテストし、プロンプトやアーキテクチャを自由に調整することができます。
まとめ
Open Deep Research
は、自律型AIエージェントの設計における洗練されたアプローチを提示しています。監督エージェントとサブエージェントによる階層構造、タスクに応じた並列処理と逐次処理の使い分け、そして徹底したコンテキストエンジニアリングは、高度なリサーチタスクを自動化する上での強力なパターンです。
LangGraph
上に構築されたこのオープンソースプロジェクトは、開発者が自身のリサーチエージェントを構築するための優れた出発点となるでしょう。その透明性と設定の柔軟性は、今後のエージェント開発の可能性を大きく広げるものと期待されます。ぜひGitHubリポジトリを訪れ、その可能性を直接体験してみてください。