SWE-bench Verified ベンチマークとは
新型のAIが出たとき、なんとなく印象で性能を評価していませんか?
いくつかベンチマークがあるうち、僕が最も信頼しているベンチマークSWE-bench Verifiedを紹介します。
概要
SWE-bench Verified(Software Engineering Benchmark Verified)は、AIモデルが実世界のソフトウェアエンジニアリング問題をどれだけ正確に解決できるかを評価する、業界標準のベンチマークです。2024年8月にOpenAIとSWE-benchの開発チームが共同でリリースしました。
基本構造
データセット構成
- 総問題数: 500問(人間により厳選された高品質な問題)
- 対象リポジトリ: 12のオープンソースPythonプロジェクト
- 問題の出典: 実際のGitHubイシューとその修正プルリクエスト
評価対象プロジェクト例
- scikit-learn
- Django
- astropy
- matplotlib
- sympy
- pandas
など実際に使われている重要なオープンソースプロジェクト
評価プロセス
1. 問題設定
AIモデルには以下が提供されます:
- コードベース: プロジェクトの完全なソースコード
- イシュー説明: GitHubで報告された実際の問題の説明文
- 開発環境: Dockerコンテナ化されたPython環境
2. AIが行うべきタスク
- 問題の理解: イシューの内容を正確に把握
- 原因の特定: バグや機能不足の原因を突き止める
- コード修正: 適切なファイルを特定し、必要な変更を実施
- パッチ作成: 問題を解決するパッチを生成
3. 評価基準
解決の成否は2種類のテストで自動判定されます:
FAIL_TO_PASS テスト
- 修正前:失敗するテスト
- 修正後:成功する必要があるテスト
- 目的: 問題が実際に解決されたかを確認
PASS_TO_PASS テスト
- 修正前後:両方とも成功する必要があるテスト
- 目的: 既存機能を壊していないかを確認
両方のテストグループが成功して初めて「解決済み」と判定されます。
品質保証プロセス
人間による検証
SWE-bench Verifiedは、元のSWE-benchデータセットの問題点を解決するため、93名のプロソフトウェア開発者による厳格な検証を経ています。
検証項目
- 問題の明確性: イシューの説明が十分に具体的か
- テストの適切性: 単体テストが過度に具体的でないか
- 環境の安定性: 開発環境が確実にセットアップできるか
品質フィルタリング
- 元データ: 約2,300問
- 人間による審査: 各問題を3名の開発者が独立して評価
- 最終選定: 500問(約68.3%が品質不足で除外)
難易度分布
作業時間による分類
| 難易度レベル | 推定作業時間 | 問題数の割合 |
|---|---|---|
| Easy | 15分未満 | 約40% |
| Medium | 15分〜1時間 | 約50% |
| Hard | 1時間以上 | 約10% |
評価制限
技術的制限
- トークン制限: 100万トークンまで
- 時間制限: 各問題に対する処理時間制限
- ネットワーク: インターネットアクセス不可
- ツール: 指定されたSWE-Agentツールセットのみ使用可能
利用可能ツール
- ファイル操作: create, open, edit, scroll
- 検索機能: find_file, search_dir, search_file
- バッシュ: シェルコマンド実行(300秒タイムアウト)
最新性能結果(2025年10月時点)
| AIモデル | スコア(% Resolved) | 特記事項 |
|---|---|---|
| Claude Sonnet 4.5 | 77.2% | 業界最高、並列計算で82.0% |
| Claude Opus 4 | 67.6% | 前世代フラッグシップ |
| GPT-5 | 65.0% | OpenAI最新モデル |
| GPT-4o | 33.2% | GPT-4系最高性能 |
ベンチマークの意義
1. 実用性
従来の理論的なコーディングテストとは異なり、実際のソフトウェア開発で発生する問題を扱っています。
2. 信頼性
人間の専門家による厳格な検証により、不適切な問題や不公平なテストを除外しています。
3. 包括性
単純なコード生成ではなく、以下の総合的な能力を評価:
- 問題理解力
- コードベース解析能力
- デバッグスキル
- 品質保証意識
4. 産業標準
現在、AIコーディング能力の事実上の業界標準として広く認知されています。
注意点・制限事項
データ汚染の可能性
- 公開されたGitHubリポジトリを使用しているため、大規模言語モデルの訓練データに含まれている可能性
範囲の制限
- Python生態系に限定
- 特定のオープンソースプロジェクトのみ
- エンタープライズ環境の複雑さは反映されていない
評価の制約
- 静的データセットのため、動的な要求変更に対応できない
- ユーザーとのインタラクションが必要な問題は含まれていない
SWE-bench Verifiedは、AIのコーディング能力を測定する最も信頼性の高いベンチマークとして、Claude Sonnet 4.5が77.2%という圧倒的なスコアを記録したことで、実世界のソフトウェア開発タスクにおけるAIの実用性を証明する重要な指標となっています。
どこで見ればいいの?
主要なリーダーボードサイト
SWE-bench 公式サイト(最も権威のある情報源)
URL: https://www.swebench.com/
特徴:
- SWE-bench開発チームが直接運営
- 最も信頼性が高い公式データ
- SWE-bench Verified、Lite、Full版すべてを確認可能
- 個別モデルの詳細分析も提供
確認できる情報:
- モデル別スコア(% Resolved)
- コスト効率($/タスク)
- 使用されたエージェント/スキャフォールド
- 提出日時とバージョン情報
Vals AI(包括的なベンチマーク追跡)
URL: https://www.vals.ai/benchmarks/swebench
特徴:
- 複数のベンチマークを統合追跡
- 詳細な統計分析とグラフ
- 時系列でのパフォーマンス推移
- 思考型モデル(Thinking models)の特別評価
追加価値:
- モデル比較機能
- 詳細なメトリクス分析
- 開発チーム別の成果追跡
Epoch AI Benchmarking Hub
URL: https://epoch.ai/benchmarks/swe-bench-verified.html
特徴:
- 学術的な視点からの詳細分析
- 複数ベンチマークの横断比較
- 研究論文レベルの詳細データ
- 独自の評価手法も併用
学術的価値:
- 評価手法の詳細説明
- 統計的有意性の検証
- 研究コミュニティで引用される信頼性
LLM Stats
URL: https://llm-stats.com/benchmarks/swe-bench-verified
特徴:
- シンプルで見やすいランキング形式
- 価格・速度との比較
- コンテキストウィンドウサイズとの関連分析
SWE-bench Live(リアルタイム評価)
URL: https://swe-bench-live.github.io/
特徴:
- リアルタイムでの新しい問題評価
- 既存のSWE-bench Verifiedとは異なる動的評価
- 最新モデルの即座の評価が可能
各サイトの使い分け
日常的な確認: SWE-bench 公式サイト
- 最新の公式スコアを確認
- 信頼性の高いデータが必要な場合
詳細分析: Vals AI
- 複数モデルの比較分析
- 時系列での性能推移を確認
- コスト効率を重視する場合
学術研究: Epoch AI
- 論文執筆や研究での引用
- 評価手法の詳細理解
- 統計的分析が必要な場合
簡単な確認: LLM Stats
- 素早くランキングを確認
- 価格との比較が重要な場合
🔍 効率的な確認方法
1. 基本的な流れ
- SWE-bench公式で最新の公式スコアを確認
- Vals AIで詳細な比較分析
- 必要に応じてEpoch AIで学術的な詳細を確認
2. 特定モデルの追跡
- 各サイトでモデル名(例:
claude-sonnet-4-5)で検索 - 複数のバージョンや日付別スコアを比較
- エージェント/スキャフォールドの影響も考慮
3. 最新情報のキャッチアップ
- SWE-bench公式のNewsセクションをチェック
- Redditの
r/ClaudeAI、r/singularityで最新議論を確認 - 各モデル開発会社の公式ブログを監視
⚠️ 注意点
スコアの解釈
- 同じモデルでも使用するエージェント/スキャフォールドで大きく性能が変わる
- 評価日時によってAPIの状態が異なる可能性
- コスト効率も重要な評価軸
データの更新頻度
- 公式サイトが最も早く更新
- 第三者サイトは若干の遅延がある可能性
- 新モデルリリース直後は数日〜1週間の遅延あり
これらのサイトを組み合わせることで、特定LLMのSWE-bench Verifiedでの性能を包括的に把握できます。