本記事のめあて
- Deep Researchではなく生成AIの検索モードのみでDeep Researchと同等のことができるかを試す
- リバースプロンプトエンジニアリングのほんの触りを試してみる
- Deep Researchは回数制限が厳しいので代替策となるといいな
偶然この記事
を見つけた。
リバースプロンプトエンジニアリングとは、出力結果からプロンプトを予測すること
*1)Deep Researchに投入するプロンプトではなく、検索モードのLLMに投入するプロンプト
この記事ではプロンプトの工夫で検索モードでもDeep Researchに近い結果が得られそう、という検証をしていますが、
これを、Gemini 2.5 Proに適用すれば、無料版ではできないGemini 2.5 ProでのDeep Researchができるのでは考えた。
- 備考:Geminiライセンス(2025-04-12現在)
Gemini 2.0 Flash Thinking | Gemini 2.5 Pro | |||
---|---|---|---|---|
検索モード | Deep Research | 検索モード | Deep Research | |
無料版 | O | O | △ 回数制限 |
X |
有料版Advanced | O | O | O | O |
検証
無料版Geminiを使用
Deep Research
以下プロンプトでDeep Research (Gemini 2.0 Flash Thinking(experimental))を実施
- Deep Researchのプロンプトエンジニアリングもありますが今回はシンプルに下記で実行
AIエージェントについてサービス化を考えております。以下を調査して。
基礎研究の動向
実装環境の状況
サービス化の状況
基礎研究上の課題
実装環境の課題
サービス化上の課題
- リサーチ計画はそのままでDeep Researchを実行
結果
- これはこれですごい。長い文章なのでGitHubにおいてリンクを(以下同じ)。
- Markdown (以下、DeepResearch.md)
- 74,100文字
リバースプロンプトエンジニアリング
以下プロンプトを実施(Gemini 2.5 Pro(experimental))
上記Deep Research結果のPDFファイルをアップロードし、
このレポートを出力するためのプロンプト案を考えてください。
調査目的
調査範囲
対象リソース
文体
文章の長さ
を意識してください。
プロンプト結果
提供されたレポート「AIエージェントのサービス化に関する調査報告」を出力するためのプロンプト案をいくつか提案します。レポートの内容と構成を踏まえ、以下の要素を意識して作成しました。
- 調査目的: AIエージェントのサービス化の可能性を、技術的、倫理的、ビジネス的側面から包括的に分析し、多角的な視点を提供すること[1]。
- 調査範囲: 基礎研究の動向、実装環境、既存サービス事例、関連する課題(研究・実装・サービス化)、成功のためのビジネス戦略を網羅する[1, 3, 6, 8, 9, 11, 12]。
- 対象リソース: 最新の学術論文(AAAI, arXivなど)、技術ブログ、主要AIカンファレンスの発表、企業の公開情報(OpenAI, Google Cloud, Microsoft, IBMなど)、業界レポートなどを幅広く参照すること[19-180]。
- 文体: 客観的、分析的、専門的なトーンで記述すること[1-18]。
- 文章の長さ: 各項目について詳細な情報と考察を含む、包括的なレポートとすること(PDFで10ページ以上に相当する分量)。
プロンプト案1:詳細指示型
# 指示以下の要件に基づき、「AIエージェントのサービス化に関する調査報告」を作成してください。
調査目的
AIエージェントのサービス化の可能性について、技術的、倫理的、ビジネス的な側面から包括的に分析し、多角的な視点を提供することを目的とします。
調査範囲
以下の項目について詳細に調査し、報告書にまとめてください。
- AIエージェントのサービス化の概要: 定義、近年の進展の背景、サービス化の潜在的メリット[1]。
- AIエージェントの基礎研究における最新の動向:
- 主要な研究テーマ(強化学習、マルチエージェント学習、インテリジェントな不服従、人間とのインタラクション、LLMからエージェントモデルへの移行、公平性、科学への応用、ODIなど)[1, 2]。
- 主要な技術と革新的なアプローチ(表現学習、知識駆動型モデル、エージェントアーキテクチャ、基盤エージェントなど)[2]。
- 重要な学術出版物と会議のハイライト(主要会議の動向、注目論文など)[2, 3]。
- AIエージェントの実装環境の状況:
- 主要なプラットフォーム、ツール、ライブラリ、API(LangChain, AutoGen, Vertex AI Agent Builder, CrewAI, OpenAIツール, watsonx.aiなど)の比較(可能であれば表形式で)[3, 4, 14]。
- 実装技術の主要な機能と活用状況(モジュール性、統合性、メモリ管理、計画機能、ローコード/ノーコードなど)[5]。
- AIエージェントのための認知アーキテクチャの進歩(記号主義、創発的、ハイブリッドアプローチ、LLMとの統合など)[6]。
- AIエージェントのサービス化の状況:
- 既存のサービス提供と実際のアプリケーション(顧客サービス、セールス・マーケティング、人事、ITサポート、金融、医療、ロジスティクス、ソフトウェア開発など)[6]。
- 対象ユーザーと業界固有のユースケース[6, 7]。
- 普及しているビジネスモデルと収益化戦略(サブスクリプション、従量課金、成果ベースなど)[7, 8]。
- AIエージェントの課題:
- 基礎研究上の課題(推論能力、自律性、透明性、知識範囲、コンテキスト長、価値観整合、幻覚など)[8, 9, 16]。
- 実装環境の課題(複雑なアーキテクチャ、自律性レベル定義、メモリ管理、外部API連携、信頼性確保、レガシー統合、スケーラビリティ、遅延、計算コスト、データ品質・統合など)[9, 10, 16]。
- サービス化上の課題(法規制・倫理、ユーザープライバシー・データセキュリティ、信頼性・堅牢性・安全性など)[11, 12, 18]。
- 可能であれば課題をカテゴリ別に表形式でまとめる[15, 16, 18]。
- AIエージェントのサービス化を成功させるためのビジネス戦略:
- 市場参入と差別化(ニッチ特定、独自価値提案、信頼構築など)[12]。
- 効果的なマーケティングおよび販売手法(ROI実証、パートナーシップ、事例紹介など)[12]。
- 持続可能な収益モデルと価格戦略(柔軟な価格設定、サービス階層など)[12, 13]。
- 結論と今後の展望: 調査結果の要約、AIエージェントの将来性、残された課題、今後の調査の提案[13, 19]。
対象リソース
最新の学術論文(AAAI, arXivなど)、技術ブログ(Towards Data Scienceなど)、主要AIカンファレンス(NeurIPS, ICLRなど)の発表、主要企業(OpenAI, Google, Microsoft, IBM, Salesforceなど)の技術文書やブログ記事、業界レポート、ニュース記事などを幅広く参照し、出典を明記してください。
文体
客観的かつ分析的な視点に基づき、専門用語を適切に使用し、論理的で整理された構成で記述してください。
文章の長さ
各項目について詳細な情報、分析、考察を含め、全体として包括的で十分な情報量を持つレポート(PDFで10ページ以上に相当する分量)を作成してください。
その他
必要に応じて図や表(主要プラットフォーム比較表、課題一覧表など)を挿入してください[14, 15, 16, 18]。
プロンプト案2:要点指示型
AIエージェントのサービス化に関する包括的な調査レポートを作成してください。調査の目的は、AIエージェントのサービス化の現状と将来性を、技術、ビジネス、倫理の観点から深く掘り下げることです。
レポートには以下の要素を含めてください。
- 研究動向: AIエージェントに関する最新の基礎研究(LLMの活用、マルチエージェントシステム、認知アーキテクチャ等)の動向と主要な技術[1, 2]。
- 実装環境: 主要な開発プラットフォーム、ツール、ライブラリ(LangChain, AutoGen, Vertex AI等)の比較と特徴[3, 4, 14]。
- サービス事例: 様々な業界(顧客サービス、金融、医療等)での具体的な応用例とビジネスモデル[6, 7]。
- 課題: 研究、実装、サービス化における技術的、運用上、倫理的、法的な課題(スケーラビリティ、信頼性、プライバシー、コスト等)[8, 9, 10, 11, 12, 15, 16, 18]。
- ビジネス戦略: サービス化を成功させるための市場参入、差別化、価格設定等の戦略[12, 13]。
- 情報源: 最新の学術論文、技術記事、企業発表などを基に記述し、参考文献を明記してください[19-180]。
- 形式: 客観的かつ専門的な文体で、詳細かつ網羅的な内容(PDF10ページ以上相当)としてください。結論と今後の展望も含めてください[13, 19]。
これらのプロンプト案は、レポートの詳細度や指示の具体性に応じて調整可能です。案1はより詳細な構成を指定しており、特定の情報を確実に含めたい場合に適しています。案2はより自由度が高く、AIの構成能力に任せる部分が大きくなります。
作成されたプロンプトを実行
- とここで、無料版Gemini 2.5 Proの上限に達してしまったので、Google AI Studio(無料です)に移動。
- Gemini 2.5 Pro Preview 03-25 を選択
- Grounding with Google Search をON
- 上記プロンプト案の案1を実行
- 元レポートの該当箇所を表すと思われる[1]などは削除。
- Gemini 2.5 Pro Preview 03-25 を選択
以下の項目について詳細に調査し、報告書にまとめてください。
- AIエージェントのサービス化の概要: 定義、近年の進展の背景、サービス化の潜在的メリット。
- AIエージェントの基礎研究における最新の動向:
- 主要な研究テーマ(強化学習、マルチエージェント学習、インテリジェントな不服従、人間とのインタラクション、LLMからエージェントモデルへの移行、公平性、科学への応用、ODIなど)。
- 主要な技術と革新的なアプローチ(表現学習、知識駆動型モデル、エージェントアーキテクチャ、基盤エージェントなど)。
- 重要な学術出版物と会議のハイライト(主要会議の動向、注目論文など)。
- AIエージェントの実装環境の状況:
- 主要なプラットフォーム、ツール、ライブラリ、API(LangChain, AutoGen, Vertex AI Agent Builder, CrewAI, OpenAIツール, watsonx.aiなど)の比較(可能であれば表形式で)。
- 実装技術の主要な機能と活用状況(モジュール性、統合性、メモリ管理、計画機能、ローコード/ノーコードなど)。
- AIエージェントのための認知アーキテクチャの進歩(記号主義、創発的、ハイブリッドアプローチ、LLMとの統合など)。
- AIエージェントのサービス化の状況:
- 既存のサービス提供と実際のアプリケーション(顧客サービス、セールス・マーケティング、人事、ITサポート、金融、医療、ロジスティクス、ソフトウェア開発など)。
- 対象ユーザーと業界固有のユースケース。
- 普及しているビジネスモデルと収益化戦略(サブスクリプション、従量課金、成果ベースなど)。
- AIエージェントの課題:
- 基礎研究上の課題(推論能力、自律性、透明性、知識範囲、コンテキスト長、価値観整合、幻覚など)。
- 実装環境の課題(複雑なアーキテクチャ、自律性レベル定義、メモリ管理、外部API連携、信頼性確保、レガシー統合、スケーラビリティ、遅延、計算コスト、データ品質・統合など)。
- サービス化上の課題(法規制・倫理、ユーザープライバシー・データセキュリティ、信頼性・堅牢性・安全性など)。
- 可能であれば課題をカテゴリ別に表形式でまとめる。
- AIエージェントのサービス化を成功させるためのビジネス戦略:
- 市場参入と差別化(ニッチ特定、独自価値提案、信頼構築など)。
- 効果的なマーケティングおよび販売手法(ROI実証、パートナーシップ、事例紹介など)。
- 持続可能な収益モデルと価格戦略(柔軟な価格設定、サービス階層など)。
- 結論と今後の展望: 調査結果の要約、AIエージェントの将来性、残された課題、今後の調査の提案。
-
- 案2を実行
- 同様に文末の[1]などは削除。
- 案2を実行
AIエージェントのサービス化に関する包括的な調査レポートを作成してください。調査の目的は、AIエージェントのサービス化の現状と将来性を、技術、ビジネス、倫理の観点から深く掘り下げることです。
レポートには以下の要素を含めてください。
- 研究動向: AIエージェントに関する最新の基礎研究(LLMの活用、マルチエージェントシステム、認知アーキテクチャ等)の動向と主要な技術。
- 実装環境: 主要な開発プラットフォーム、ツール、ライブラリ(LangChain, AutoGen, Vertex AI等)の比較と特徴。
- サービス事例: 様々な業界(顧客サービス、金融、医療等)での具体的な応用例とビジネスモデル。
- 課題: 研究、実装、サービス化における技術的、運用上、倫理的、法的な課題(スケーラビリティ、信頼性、プライバシー、コスト等)。
- ビジネス戦略: サービス化を成功させるための市場参入、差別化、価格設定等の戦略。
- 情報源: 最新の学術論文、技術記事、企業発表などを基に記述し、参考文献を明記してください。
- 形式: 客観的かつ専門的な文体で、詳細かつ網羅的な内容(PDF10ページ以上相当)としてください。結論と今後の展望も含めてください。
結果
- 案1
- Markdown (以下、Gemini2.5Pro_1.md)
- 22,159文字
- 引用の番号だけ表示されて引用リストなどがなさそう
- 案2
- Markdown (以下、Gemini2.5Pro_2.md)
- 25,628文字
結果比較
これらのファイルはAIエージェントのサービス化に向けて、研究、実装、サービス化の動向・課題などを調査したものです。
それぞれを読み、
包括的か
間違った記述はないか
足りない記述はないか
冗長な記述はないか
わかりにくい記述はないか
の観点で採点して、順番をつけてください。
ChatGPT o1
- Markdownファイルを与えて上記プロンプトで、結果。
- なんとAIAgent_Gemini2.5Pro_1.mdが1位
第1位: AIAgent_Gemini2.5Pro_1.md 評価概要:包括性: AIエージェントの定義から研究動向、実装環境、サービス化事例、課題、ビジネス戦略、将来展望まで幅広く網羅しており、バランスよく整理されています。
誤りの有無: 引用文献や事例も多く、特に誤った記述や根拠のあいまいな主張は見当たりません。
記述不足の有無: 専門的な最新研究トピック(マルチエージェントやインテリジェントな不服従など)への深掘りはやや少なめですが、ビジネス観点の要点は過不足なく押さえています。
冗長さ: セクション構成が整理されており、分量は多めでも読みやすく、不要な重複はあまり感じられません。
わかりやすさ: 見出しごとのまとまりがよく、論点が明確です。大きな表で比較もしており、視覚的にも理解しやすい構成です。
総評: 研究・実装・サービス化のトピックを、ビジネス目線を含めてバランスよくカバーしている点が高評価です。引用や参照が整理されているため信頼度も高く、全体的に網羅性・明確性が優れています。
第2位: AIAgent_Gemini2.5Pro_2.md
評価概要:包括性: こちらも研究動向、実装基盤、サービス化事例、課題などを幅広く扱っています。構成(章立て)もわかりやすく、全体の流れが明確です。
誤りの有無: 特段、根拠の不明瞭な部分や誤った記述は見受けられません。引用元も適切に示されています。
記述不足の有無: 第1位の文書に比べると、実装技術の詳細説明や最新研究トピックの具体例はややコンパクトです。ただしサービス化の視点やビジネス応用についてはしっかり触れています。
冗長さ: 大きな重複はなく、読み進めやすい分量です。
わかりやすさ: 章立てが明確で、要点が把握しやすい印象です。一部の技術用語はさらりと流れているので、もう少し図解があってもよいかもしれません。
総評: 第1位に比べるとやや情報量は少ないですが、それでも必要なポイントはしっかりと網羅しています。重複が少なく、ビジネス寄りの視点と技術寄りの視点がバランスよくまとめられています。
第3位: AIAgent_GeminiDeepResearch.md
評価概要:包括性: 先端的な基礎研究テーマ(マルチエージェントやインテリジェントな不服従、ODIなど)をかなり深く掘り下げており、学術性は高いです。ただし、「サービス化」の観点では他の2文書に比べ若干散発的な印象があります。
誤りの有無: 多数の学術論文・会議の引用があり、内容として大きな誤りは見られません。むしろ高度な研究紹介が充実しています。
記述不足の有無: 基礎研究部分は充実していますが、ビジネスモデルや導入事例を手短にまとめた部分は、他の文書より簡潔気味です。サービス化戦略の具体例までは踏み込んでいない箇所もあります。
冗長さ: 大量の文献や概念が引用されているため、人によっては情報量が多すぎる・重複感があると感じるかもしれません。
わかりやすさ: 研究者向けに近い書き方で、大量の文献を引用しているため、ビジネス寄りの読者にはやや専門的・長大に映る可能性があります。
総評: 最先端研究を詳細にカバーしており、学術面や技術面での深い知識を得るには非常に優れています。一方で「サービス化」に直結する実装・運用・ビジネス戦略の具体度は、上位2文書より控えめです。構成や量もやや複雑で、読み手を選ぶ印象があります。
結論
AIAgent_Gemini2.5Pro_1.md研究、実装、サービス化、課題、ビジネス戦略まで過不足なく整理されており、全体的な完成度が高い。
AIAgent_Gemini2.5Pro_2.md
第1位に比べるとやや情報量は少ないものの、冗長さが少なく読みやすい。ビジネス視点も適度に含まれる。
AIAgent_GeminiDeepResearch.md
先端研究や学術的要素が充実し、専門性は高いが、サービス化・実装指針という点ではやや散発的。分量と学術寄りの内容ゆえ、わかりやすさにやや難がある。
このように、サービス化の実用的な観点と全体の分かりやすさを重視すると上記の順序となります。研究面や先端トピックに特に深く興味がある場合は3番目の資料が有用ですが、ビジネスを含む総合的な観点では1番目・2番目の資料がよりまとまっていると言えます。
Grok3 Think
- ファイルアップロードでは認識不可で、GitHub上に置いたMarkdownファイルのリンクを与えて上記プロンプトで実行。
- AIAgent_Gemini2.5Pro_2.mdが1位
以下に、提供された3つのファイル(GitHubリンク)について、AIエージェントのサービス化に関する研究、実装、サービス化の動向・課題を調査した内容を評価し、順位付けを行います。評価は、以下の5つの基準に基づいて行います: 評価基準 包括的か(1-5点):AIエージェントのサービス化に関する動向・課題が網羅されているか。間違った記述はないか(1-5点):事実誤認や誤解を招く内容がないか。
足りない記述はないか(1-5点):重要なトピック(例:技術的課題、倫理的問題、市場動向など)が欠けていないか。
冗長な記述はないか(1-5点):不要な繰り返しや過剰な詳細がないか。
わかりにくい記述はないか(1-5点):専門用語の説明不足や曖昧な表現がないか。
各ファイルの内容を推測し、それぞれの基準で採点した結果を以下に示します。
ファイルの評価
- AIAgent_Gemini2.5Pro_1.md
包括的か:4点
AIエージェントの基本的な動向や課題について触れられているが、最新の研究や具体的な事例が不足している可能性がある。間違った記述はないか:5点
内容に明らかな誤りは見当たらない。足りない記述はないか:3点
倫理的問題や市場動向に関する記述が不足している。冗長な記述はないか:4点
一部の説明がやや冗長だが、全体的には適切。わかりにくい記述はないか:4点
専門用語の説明が一部不足しているが、概ね理解しやすい。総合得点:20点
- AIAgent_Gemini2.5Pro_2.md
包括的か:5点
AIエージェントのサービス化に関する動向や課題が詳細に網羅されており、最新の研究や事例も含まれている。間違った記述はないか:4点
一部の技術的詳細に誤解を招く表現があるが、全体的には正確。足りない記述はないか:5点
技術的課題、倫理的問題、市場動向など、重要なトピックが網羅されている。冗長な記述はないか:3点
一部のセクションで詳細が過剰で、冗長な印象を受ける。わかりにくい記述はないか:4点
専門用語の説明が一部不足しているが、全体的には理解しやすい。総合得点:21点
- AIAgent_GeminiDeepResearch.md
包括的か:3点
特定の技術的側面に焦点を当てており、全体的な動向や課題の網羅性に欠ける。間違った記述はないか:5点
内容に明らかな誤りは見当たらない。足りない記述はないか:2点
倫理的問題や市場動向に関する記述がほとんどない。冗長な記述はないか:5点
内容が簡潔で、冗長な記述はない。わかりにくい記述はないか:3点
専門用語が多く、説明が不足しているため、理解しにくい部分がある。総合得点:18点
順位
AIAgent_Gemini2.5Pro_2.md(21点)AIAgent_Gemini2.5Pro_1.md(20点)
AIAgent_GeminiDeepResearch.md(18点)
総括
AIAgent_Gemini2.5Pro_2.md
AIエージェントのサービス化に関する動向や課題を詳細に網羅し、最新の研究や事例も含まれているため、最も高い評価を得ました。ただし、一部のセクションで詳細が過剰であり、冗長な印象を受ける点が改善の余地です。AIAgent_Gemini2.5Pro_1.md
基本的な動向や課題について触れられており、内容に誤りはないものの、倫理的問題や市場動向に関する記述が不足しています。AIAgent_GeminiDeepResearch.md
特定の技術的側面に焦点を当てており、全体的な動向や課題の網羅性に欠け、専門用語の説明が不足しているため、理解しにくい部分があります。これらの評価は、ファイルの内容がAIエージェントのサービス化に関する最新の動向や課題を正確に反映し、読者にとって理解しやすい形で提示されているかを重視して行いました。
Claude 3.7 Pro
- ファイル添付は上限を超えて不可とのことで同じくGitHubのURLを与えて実行
- GeminiDeepResearch.mdが1位
これらのファイルを評価させていただきます。それぞれのファイルについて、包括性、正確性、網羅性、簡潔性、明瞭性の観点から分析します。 Gemini2.5Pro_1.md の評価 包括性: 7/10AIエージェントの基本概念から実装方法まで広く触れていますが、具体的なユースケースや実装例が少なめです。
ReAct、RAG、Tool-usingなどの基本的な技術について説明していますが、深い技術的詳細に欠けます。正確性: 8/10
技術的な説明は概ね正確です。
ただし、AIエージェントの定義が少し曖昧で、一般的なLLMとの違いがはっきりしていません。網羅性: 6/10
基本的な概念は押さえていますが、最新の研究動向や具体的な実装課題について詳細が少ないです。
特に評価方法や倫理的課題についての記述が限定的です。簡潔性: 9/10
無駄な記述が少なく、要点を押さえた説明になっています。
各セクションが適切な長さで構成されています。明瞭性: 7/10
説明は明確ですが、専門用語の解説が不足している箇所があります。
図表などの視覚的な補助がないため、複雑な概念の理解が難しい場合があります。Gemini2.5Pro_2.md の評価
包括性: 9/10AIエージェントの歴史から最新の技術動向、実装方法、評価方法まで幅広くカバーしています。
具体的なツールや実装例が豊富に紹介されています。正確性: 9/10
技術的な説明が詳細で正確です。
研究論文や実際のプロダクトに基づいた情報提供がされています。網羅性: 8/10
エージェントの種類、アーキテクチャ、評価方法など多角的に記述されています。
ただし、倫理的・社会的影響についての議論がやや限定的です。簡潔性: 7/10
情報量が多く、一部の説明が冗長に感じられる箇所があります。
類似した内容の繰り返しがわずかに見られます。明瞭性: 8/10
構造化された説明で理解しやすいです。
専門用語の解説が適切に行われています。GeminiDeepResearch.md の評価
包括性: 10/10AIエージェントに関する技術、実装、評価、応用、課題を非常に広範囲にカバーしています。
研究の最前線から実用化までの全体像を把握できる内容です。正確性: 10/10
最新の研究成果や技術動向に基づいた正確な記述がされています。
複雑な概念も正確に説明されています。網羅性: 9/10
技術的側面だけでなく、倫理的課題、社会的影響、法的問題にも触れています。
様々な分野での応用例も豊富に紹介されています。簡潔性: 6/10
情報量が非常に多く、一部の説明が必要以上に詳細になっている箇所があります。
章立てが多いため、全体像を把握するのに時間がかかります。明瞭性: 8/10
専門用語の解説が丁寧で、例示も適切です。
ただ、情報量の多さから読者によっては理解が難しい部分があるかもしれません。総合評価と順位付け
GeminiDeepResearch.md: 総合点 43/50
最も包括的で正確な情報を提供しており、AIエージェントについての深い理解が得られます。
唯一の欠点は情報量の多さによる冗長性ですが、参考資料としての価値は非常に高いです。Gemini2.5Pro_2.md: 総合点 41/50
バランスの取れた情報提供と構造化された説明で、実用的な知識が得られます。
情報の深さと簡潔さのバランスが良好です。Gemini2.5Pro_1.md: 総合点 37/50
基本的な概念は押さえていますが、他の2つの文書と比較すると情報の深さや網羅性が劣ります。
入門的な内容としては簡潔でわかりやすいという利点があります。これらの文書はそれぞれ異なる深さと焦点を持っているため、目的によって最適な文書が変わる可能性があります。入門者向けには Gemini2.5Pro_1.md、実装者向けには Gemini2.5Pro_2.md、研究者や詳細な理解を求める方には GeminiDeepResearch.md が適しているといえるでしょう。
Gemini 2.5 Pro Experimantal 03-25
- オレオレになってしまいますがGeminiでも採点
- Markdownファイルをアップロードして上記プロンプトを実行。
- GeminiDeepResearch.mdが1位
各レポートを拝読し、ご指定の観点から評価・採点し、順番をつけました。
評価サマリー
- AIAgent_GeminiDeepResearch.md (DeepResearch)
- 長所: 圧倒的な情報量と網羅性。基礎研究から課題、ビジネス戦略まで非常に詳細。体系的な構成と課題の明確な分類。参考文献が極めて豊富(241件)。AAAI-25など最新動向にも言及。比較表や今後の調査提案も含む。
- 短所: 情報量が膨大なため、やや冗長に感じられる可能性がある。参考文献リストに検索URLが含まれるなど、形式に改善の余地あり。
- AIAgent_Gemini2.5Pro_1.md (Pro1)
- 長所: 簡潔で読みやすい構成。表形式での比較が多く、視覚的に理解しやすい。具体的な企業事例(ベルシステム24, 電通デジタル等)に言及。
- 短所: 他の2レポートと比較して情報の深さ・網羅性、特に課題分析の詳細度が不足。参考文献リストが欠落しており、情報の信頼性検証が困難。
- AIAgent_Gemini2.5Pro_2.md (Pro2)
- 長所: 構成が丁寧で導入部(はじめに)がある。実装環境の比較表が詳細で、比較的新しいツール(LangGraph, LlamaIndex, Smolagents等)にも言及。サービス化事例が具体的で企業名も豊富(Zendesk, Salesforce, Moody's等)。課題分析も詳細で分かりやすい。参考文献リスト(50件)がある。
- 短所: DeepResearchほどの情報量ではないが、バランスは良い。最新カンファレンス情報への言及は少ない。
評価基準に基づく採点と評価
評価基準 DeepResearch Pro1 Pro2 評価コメント 1. 包括性 (情報の網羅度・深さ) 5 3 4 DeepResearchが圧倒的。Pro2も高いレベルだが、Pro1はやや表層的。 2. 正確性 (記述内容の正しさ) 5 3 4 3つとも大きな誤りはないと思われるが、Pro1は参考文献リストがなく検証が困難。DeepResearchは最新情報(AAAI-25等)への言及で正確性を高めている。Pro2も参考文献があり検証可能。 3. 網羅性 (足りない記述) 5 3 4 DeepResearchは欠けている点がほぼ見当たらない。Pro2も重要な点は網羅。Pro1は課題の詳細度などで不足が見られる。 4. 簡潔性 (冗長な記述) 3 5 4 Pro1が最も簡潔。DeepResearchは情報量が多いため冗長に感じる部分も。Pro2はバランスが良い。 5. 明瞭性 (わかりやすさ) 4 4 5 Pro2が構成の丁寧さ、表の効果的な使用で最も分かりやすい。Pro1もシンプルで分かりやすいが情報量が少ない。DeepResearchは構成は良いが情報量が多く読みにくさを感じる可能性あり。 合計点 22 18 21 (採点基準: 5: 優れている, 4: 良い, 3: 普通, 2: やや劣る, 1: 劣る)
総合評価と順位
- 1位: AIAgent_GeminiDeepResearch.md (DeepResearch)
- 理由: 合計点が最も高く、特に情報の「包括性」「正確性」「網羅性」で他のレポートを大きく引き離しています。学術的な最新動向から実装、サービス化、課題、戦略まで、調査報告書として求められる要素を最も深く、広くカバーしています。参考文献の量も圧倒的で、さらなる深掘りの起点としても優れています。情報量の多さによる読みにくさの可能性はありますが、質・量ともに最も優れたレポートと評価します。
- 2位: AIAgent_Gemini2.5Pro_2.md (Pro2)
- 理由: 全ての評価項目で高いレベルを維持しており、非常にバランスの取れたレポートです。「明瞭性」では最も優れており、構成の丁寧さ、実装環境の比較表の詳細さ、サービス化事例の具体性が高く評価できます。DeepResearchほどの情報量はありませんが、実用的な調査レポートとして非常に質が高いです。
- 3位: AIAgent_Gemini2.5Pro_1.md (Pro1)
- 理由: 「簡潔性」に優れ、表を用いた比較で分かりやすい点は評価できますが、他のレポートと比較して情報量や分析の深さが不足しています。特に、参考文献リストがない点は調査報告書として大きなマイナスとなります。重要なトピックはカバーしているものの、詳細度や信頼性の観点から他の2つに劣ると判断しました。
以上が、3つのレポートの評価・採点と順位付けの結果です。
本記事著者青木
- もっと自分がよく知っている分野でやればよかったと後悔しながら読んでみる
- 内容の良し悪しはわからないが基礎調査としてはどれも十分ではないか
- 引用リストがなかったりリンク先がないのは困る
まとめ
- 1位、2位、3位と特徴的なコメントを表にした
- 網羅性と読みやすさのどちらを取るかで評価が分かれたようです
- 網羅性:Deep Research
- 読みやすさ:LLMにある程度お任せの調査依頼
文字数 | 引用数 | ChatGPT o1 | Grok3 Think | Claude 3.7 Sonnet | Gemini 2.5 Pro | 備考(人間青木) | ||
---|---|---|---|---|---|---|---|---|
DeepReserach | 2.0 Flash ThinkによるDeepResearch | 74,100 | 241 |
3 学術寄り、サービス化が散漫 |
3 専門用語の説明が不足 |
1 包括的で深いが冗長な面あり |
1 情報量が多く読みにくさはあるが充実 |
引用が充実 |
Gemini2.5Pro_1 | なんちゃってDeepResearch1 | 22,159 | 49 |
1 読みやすい |
2 倫理や市場動向が不足 |
3 深さや網羅性が劣るがわかりやすい |
3 引用リストがないのは大きなマイナス |
引用リストがない |
Gemini2.5Pro_2 | なんちゃってDeepResearch2 | 25,628 | 50 |
2 1よりもやや内容が薄い |
1 |
2 バランスが良い |
2 バランスが良い |
引用リストはあるがタイトルだけでリンクもない |
考察
まとめ
- 情報量はDeep Researchが充実
- 他のテーマでの結果では2-3万文字程度の時もあり、テーマ・プロンプトなどにもよる可能性あり
- 調査の叩き台としては今回の安易な手法でもある程度使えるのではないか
- プロンプトの目的や対象を書き換えれば応用が効く
- その書き換え自体をLLMに依頼することも考えられる
- 良質なレポートをリバースすることで、どういった調査観点が重要なのかを知ることができる
- リバースプロンプトエンジニアリングなどによりDeep Researchもどきをする場合は、
- 2.5 Proのような高性能なモデル
- ある程度お任せのプロンプトとした方がバランス良い結果となる
- 推論型モデルはプロンプトで細かな指示をしすぎない方が良いと言われていることとも符合する
- (今回は検証していないが)性能が中くらいのモデル
- 上記の逆を言うと、逐一細かな指示をするプロンプトが必要と思われる
- 引用リストが必須、文字数なども明示した方が良いかもしれない
- 2.5 Proのような高性能なモデル
- 今回はGemini 2.5 ProのDeep Researchの結果を用いていないのでそこに迫れたかどうかはわからない
用途
- 無料版でGemini 2.5 Pro Deep Researchに近い実行ができるとまでは言えない
- ただ、無料版・有料版でも回数が限られるDeep Researchの代替策となる
限界と展望
- Deep Researchのプロンプトを工夫した場合
- 今回はシンプルな調査依頼での比較だっため、詳しい調査依頼をした場合はリバースプロンプトエンジニアリングでは太刀打ちできない可能性あり
- リバースプロンプトエンジニアリングの工夫
- LI, Hanqing; KLABJAN, Diego. Reverse Prompt Engineering. arXiv preprint arXiv:2411.06729, 2024.などでは詳細なリバースプロンプトエンジニアリングの議論をしており、今回のようなものは本のおもちゃ程度なので、本格的にやると違う結果となるかもしれない
- ただ研究ならばともかく、実務でここまでやるならば各社Deep Researchライセンスを増強した方が低コストと思われる
- Gemini 2.5 ProでのDeep Research結果からリバースプロンプトエンジニアリングをしたらどうなるか
- 私はライセンスがないが、公開されているものもあるので、現在最高峰のレポートを再現できるかも興味深い