はじめに
AIコーディングエージェントの普及により、コード生成の速度は劇的に向上した。しかし、生成されたコードの品質を担保する テスト は依然として人間の手に委ねられている場面が多い。Claude CodeやGitHub Copilotでテストを書かせても、プロンプトの調整やコンパイルエラーの修正に時間を取られ、結局カバレッジは30%台に留まるケースが少なくない。
2026年3月24日、Oxford大学スピンアウトの Diffblue がGA(一般提供)を発表した Diffblue Testing Agent は、この課題に正面から取り組む。既存のAIコーディングエージェント(Claude Code、GitHub Copilot)の上にオーケストレーション層として動作し、コードベース全体のリグレッションテストを 自律的に 生成・検証・PR作成まで完了する。
公式ベンチマークによると、8つの実Java プロジェクトで 平均80.7%のラインカバレッジ を達成。シニア開発者がClaude Codeを使って同じプロジェクトをテストした場合の32.3%と比較して 2.5倍 の成果を記録している。
この記事では、Diffblue Testing Agentのアーキテクチャ、ワークフロー、ベンチマーク結果、導入方法を公開情報に基づいて解説する。
この記事で学べること
- Diffblue Testing Agentが「自律型テストエージェント」として動作する仕組み
- Claude Code / GitHub Copilotとの統合アーキテクチャ
- ベンチマーク結果の詳細(ラインカバレッジ、ミューテーションカバレッジ)
- 導入手順と料金体系
対象読者
- AIコーディングエージェントを活用しているエンジニア
- テスト自動化・カバレッジ向上に課題を感じているチーム
- Java / Pythonプロジェクトのモダナイゼーションを検討中の組織
TL;DR
- Diffblue Testing Agentは、Claude Code / GitHub Copilotの 上 で動作するオーケストレーション型テストエージェント
- 8つの実Javaプロジェクトで 80.7%ラインカバレッジ (人間+Claude Codeの32.3%に対して2.5倍)を達成
- カバレッジ分析→テスト計画→並列生成→検証→PR作成を 完全自律 で実行
- Java 8〜25 / Python対応。コードは外部に送信されず オンプレミス実行 が可能
Diffblue Testing Agentとは
背景 — AIコーディングエージェント時代のテスト課題
AIコーディングエージェントは「コードを書く」能力において急速に進化している。しかし、LangChainの "State of Agent Engineering" レポートによると、AIエージェントの本番導入における最大の障壁は 品質保証(約3分の1) であり、テストの自動化が追いついていない現状が浮き彫りになっている。
Claude CodeやGitHub Copilotでテストを生成する場合、以下の課題がある。
| 課題 | 詳細 |
|---|---|
| 継続的な人間の介入が必要 | プロンプト調整、エラー修正、結果確認を開発者が繰り返す |
| コンパイル・実行成功率が低い | LLMベースのツールではテストの30〜45%が失敗する |
| カバレッジが限定的 | 開発者の作業時間(510分)をかけても平均32%に留まる |
| スケーラビリティの欠如 | 数百〜数千クラスの一括処理が困難 |
Diffblue Testing Agentは、これらの課題を「オーケストレーション+強化学習」のアプローチで解決する。
基本コンセプト — オーケストレーション型エージェント
Diffblue Testing Agentは、AIコーディングエージェントの 代替 ではなく 拡張 として設計されている。公式サイトによると、企業が既に導入しているClaude CodeやGitHub Copilotを テスト生成エンジン として活用しつつ、Diffblueの持つ10年以上のテストエンジニアリング知見を オーケストレーション層 として上乗せする構造をとる。
┌──────────────────────────────────────┐
│ Diffblue Testing Agent │ ← オーケストレーション層
│ ┌──────────┬──────────┬──────────┐ │
│ │カバレッジ │テスト計画│ 検証 │ │
│ │ 分析 │ 作成 │ ロールバック│ │
│ └──────────┴──────────┴──────────┘ │
├──────────────────────────────────────┤
│ AI Coding Agent (選択可能) │ ← 生成エンジン
│ ┌─────────────┬─────────────────┐ │
│ │ Claude Code │ GitHub Copilot │ │
│ └─────────────┴─────────────────┘ │
├──────────────────────────────────────┤
│ 対象コードベース │
│ Java 8/11/17/21/25 | Python │
└──────────────────────────────────────┘
重要な点として、Diffblueは単にLLMにプロンプトを投げるだけではない。Oxford大学の計算機科学研究から生まれた 強化学習ベースのアプローチ を用いており、生成されるテストは「コンテキストを認識し、決定論的で、コンパイル・実行が保証される」ものとなる。公式ブログによると、テストのコンパイル・実行成功率は 約99% に達する。
ワークフロー — 7ステップの自律実行
Diffblue Testing Agentは、GA発表のプレスリリースによると、以下の7ステップを 完全自律 で実行する。
ステップ1: カバレッジ分析
対象コードベースの既存テストカバレッジを分析し、テストが不足しているクラスやメソッドを特定する。Test Asset Insights 機能により、既存テストのパターン、ヘルパーメソッド、フィクスチャを学習し、プロジェクト固有のテスト規約に沿った生成を行う。
ステップ2: ビルドシステム設定
Maven / Gradle などのビルドシステム設定を自動検出し、テスト実行に必要な依存関係やプラグイン設定を調整する。レガシーなJava 8/11プロジェクトでも対応可能。
ステップ3: テスト計画作成
カバレッジ分析の結果に基づき、どのクラス・メソッドに対してどのようなテストを生成するかの計画を立案する。
ステップ4: 並列テスト生成
計画に基づき、Claude Code / GitHub Copilotにメソッド・クラス単位のテスト生成を 並列で 委任する。強化学習モデルが生成内容を制御し、ハルシネーション(存在しないAPIの呼び出し等)を抑制する。
ステップ5: 出力検証
生成されたテストが コンパイル可能 かつ 実行成功 するかを自動検証する。失敗したテストは自動的にロールバックされ、プロジェクトに含まれない。
ステップ6: プロジェクトクリーンアップ
不要な一時ファイルや設定変更を元に戻し、プロジェクトの整合性を維持する。
ステップ7: PR作成
検証済みのテストスイートをまとめてPull Requestを自動作成する。開発者はPRをレビュー・マージするだけで、テストがCIパイプラインに組み込まれる。
2つの動作モード
| モード | 用途 | 対象 |
|---|---|---|
| Batch Mode | プロジェクト全体の一括テスト生成 | CI/CD、モダナイゼーション |
| Task Mode | IDE内での個別テスト生成 | 日常の開発作業 |
ベンチマーク結果
Claude Code + シニア開発者 vs Diffblue Testing Agent
公式ベンチマークは、8つの実Javaプロジェクト(31,069行のカバー可能コード)を対象に実施された。
| 指標 | Diffblue Testing Agent | シニア開発者 + Claude Code |
|---|---|---|
| ラインカバレッジ | 80.7% | 32.3% |
| ミューテーションカバレッジ | 61.3% | 24.2% |
| 人間の介入時間 | セットアップのみ | 510分 |
| 倍率 | 2.5倍 | 1x(ベースライン) |
ミューテーションカバレッジ(コードの変更をテストが検出できる割合)で 61.3% を達成している点は注目に値する。これはテストが「表面的な実行」ではなく、実際のバグ検出能力 を持つことを示す指標である。
GitHub Copilot との比較
2025年のベンチマークスタディでは、GitHub Copilotと比較して以下の結果が報告されている。
| 指標 | Diffblue | GitHub Copilot |
|---|---|---|
| テスト生成速度 | 4倍 | 1x |
| テスト生成量 | 10倍 | 1x |
| コードカバレッジ | 4倍 | 1x |
| 総合生産性 | 26倍 | 1x |
| テスト成功率 | 約99% | 約65% |
LLMベースのアシスタントでは生成されたテストの30〜45%がコンパイルエラーや実行失敗を起こすのに対し、Diffblueは強化学習ベースのアプローチにより 約99% の成功率を実現している。
導入方法
対応環境
公式サイトによると、対応環境は以下の通り。
| 項目 | 対応内容 |
|---|---|
| 言語 | Java 8, 11, 17, 21, 25 / Python |
| AIコーディングエージェント | Claude Code, GitHub Copilot(Gemini CLI, Codex は近日対応予定) |
| IDE | IntelliJ IDEA(プラグイン経由) |
| ビルドツール | Maven, Gradle |
| CI/CD | GitHub Actions, Jenkins 等(PR作成経由で統合) |
セットアップの流れ
公式ドキュメントに基づく基本的な導入フローは以下の通り。
- Diffblue Coverのインストール — IntelliJ IDEAプラグインまたはCLI版を導入
- AIコーディングエージェントの接続 — 既存のClaude Code / GitHub Copilot環境を指定
- 対象プロジェクトの設定 — テスト対象のリポジトリとビルド設定を構成
- テスト生成の実行 — Batch Mode(全体)またはTask Mode(個別)で開始
- PRレビュー・マージ — 自動生成されたPRを確認して統合
コードは ローカル環境で実行 され、外部に送信されない。オンプレミスでの運用にも対応しており、金融機関をはじめとするセキュリティ要件の厳しい組織でも導入が可能。公式サイトによると、米国10大銀行のうち4行が既に利用している。
料金体系
公式料金ページによると、Diffblue Testing Agentは アウトカムベース の料金体系を採用している。
| 項目 | 内容 |
|---|---|
| 料金 | $1,500 / 5,000行の新規カバレッジ($0.30/行) |
| 課金単位 | 検証済みの新規カバレッジ行数 |
| 検証条件 | テストがコンパイル・実行に成功した行のみ |
| 検証手段 | JaCoCo / Cobertura 等の標準ツールで独立検証可能 |
| Enterprise | ボリューム割引、SSO/SAML、専任サポート、SLA、オンプレミスデプロイ |
「生成されたが使えないテスト」にコストが発生しない設計のため、ROIが明確に計測できる点が特徴的である。
活用シーン
レガシーコードのモダナイゼーション
Java 8/11で書かれたレガシーシステムのテストカバレッジ向上は、モダナイゼーションの前提条件となることが多い。Diffblue Testing AgentはBatch Modeで数百〜数千クラスを一括処理し、移行前のセーフティネットを構築できる。
CI/CDパイプラインへの組み込み
コミットごとにDiffblue Testing Agentを実行し、変更されたコードに対するテストを自動追加する運用が可能。Cover Optimize機能は変更されていないテストをスキップし、ビルド時間を短縮する。
AIコーディングエージェントの品質担保
Claude CodeやGitHub Copilotで生成したコードの品質を、Diffblue Testing Agentが自動テストで裏付ける。コード生成とテスト生成のループを自動化することで、AIコーディングの「速度」と「信頼性」を両立できる。
注意点
Diffblue Testing Agentは強力なツールだが、以下の留意事項がある。
- 現時点でJavaとPythonのみ対応 — TypeScript、Go、Rust等は未対応。Gemini CLI / Codexとの統合も「近日対応」段階
- ユニットテスト特化 — E2Eテスト、インテグレーションテスト、パフォーマンステストの生成は対象外
- Enterprise料金は要問い合わせ — 大規模導入時のコスト見積もりには営業との連携が必要
- 既存テストとの競合 — 既存テストスイートとの整合性は手動で確認が必要な場合がある
まとめ
Diffblue Testing Agentは、AIコーディングエージェント時代における テスト自動化の次のステップ を示している。
- Claude Code / GitHub Copilotの上でオーケストレーション層として動作し、テスト生成の「最後の1マイル」を自動化する
- 強化学習ベースのアプローチにより 約99%のテスト成功率 と 80.7%のラインカバレッジ を達成
- コードはローカル実行され、エンタープライズのセキュリティ要件にも対応
AIがコードを書く速度が上がるほど、それを検証するテストの自動化が重要になる。Diffblue Testing Agentは、「AIが書いたコードをAIがテストする」エコシステムの到来を告げるプロダクトといえる。
参考リンク
- Diffblue公式サイト — 製品概要・ベンチマーク・料金(セクション「Diffblue Testing Agentとは」「ベンチマーク結果」「料金体系」で引用)
- Diffblue Testing Agent GA発表(IP Group plc) — GA発表プレスリリース(セクション「ワークフロー」で引用)
- Why Autonomous AI Agents Are Transforming Unit Testing — 強化学習アプローチの技術詳細(セクション「基本コンセプト」で引用)
- Diffblue Cover vs AI Coding Assistants: 2025 Benchmark Study — GitHub Copilotとの比較ベンチマーク(セクション「ベンチマーク結果」で引用)
- Diffblue料金ページ — 料金体系の詳細(セクション「料金体系」で引用)
- State of Agent Engineering(LangChain) — AIエージェント品質保証の課題(セクション「背景」で引用)



