LLMの性能、どこで見てる？SWE-bench Verified ベンチマークとは

Posted at 2025-10-27

SWE-bench Verified ベンチマークとは

新型のAIが出たとき、なんとなく印象で性能を評価していませんか？
いくつかベンチマークがあるうち、僕が最も信頼しているベンチマークSWE-bench Verifiedを紹介します。

概要

SWE-bench Verified（Software Engineering Benchmark Verified）は、AIモデルが実世界のソフトウェアエンジニアリング問題をどれだけ正確に解決できるかを評価する、業界標準のベンチマークです。2024年8月にOpenAIとSWE-benchの開発チームが共同でリリースしました。

基本構造

データセット構成

総問題数: 500問（人間により厳選された高品質な問題）
対象リポジトリ: 12のオープンソースPythonプロジェクト
問題の出典: 実際のGitHubイシューとその修正プルリクエスト

評価対象プロジェクト例

scikit-learn
Django
astropy
matplotlib
sympy
pandas
など実際に使われている重要なオープンソースプロジェクト

評価プロセス

1. 問題設定

AIモデルには以下が提供されます：

コードベース: プロジェクトの完全なソースコード
イシュー説明: GitHubで報告された実際の問題の説明文
開発環境: Dockerコンテナ化されたPython環境

2. AIが行うべきタスク

問題の理解: イシューの内容を正確に把握
原因の特定: バグや機能不足の原因を突き止める
コード修正: 適切なファイルを特定し、必要な変更を実施
パッチ作成: 問題を解決するパッチを生成

3. 評価基準

解決の成否は2種類のテストで自動判定されます：

FAIL_TO_PASS テスト

修正前：失敗するテスト
修正後：成功する必要があるテスト
目的: 問題が実際に解決されたかを確認

PASS_TO_PASS テスト

修正前後：両方とも成功する必要があるテスト
目的: 既存機能を壊していないかを確認

両方のテストグループが成功して初めて「解決済み」と判定されます。

品質保証プロセス

人間による検証

SWE-bench Verifiedは、元のSWE-benchデータセットの問題点を解決するため、93名のプロソフトウェア開発者による厳格な検証を経ています。

検証項目

問題の明確性: イシューの説明が十分に具体的か
テストの適切性: 単体テストが過度に具体的でないか
環境の安定性: 開発環境が確実にセットアップできるか

品質フィルタリング

元データ: 約2,300問
人間による審査: 各問題を3名の開発者が独立して評価
最終選定: 500問（約68.3%が品質不足で除外）

難易度分布

作業時間による分類

難易度レベル	推定作業時間	問題数の割合
Easy	15分未満	約40%
Medium	15分〜1時間	約50%
Hard	1時間以上	約10%

評価制限

技術的制限

トークン制限: 100万トークンまで
時間制限: 各問題に対する処理時間制限
ネットワーク: インターネットアクセス不可
ツール: 指定されたSWE-Agentツールセットのみ使用可能

利用可能ツール

ファイル操作: create, open, edit, scroll
検索機能: find_file, search_dir, search_file
バッシュ: シェルコマンド実行（300秒タイムアウト）

AIモデル	スコア（% Resolved）	特記事項
Claude Sonnet 4.5	77.2%	業界最高、並列計算で82.0%
Claude Opus 4	67.6%	前世代フラッグシップ
GPT-5	65.0%	OpenAI最新モデル
GPT-4o	33.2%	GPT-4系最高性能

ベンチマークの意義

1. 実用性

従来の理論的なコーディングテストとは異なり、実際のソフトウェア開発で発生する問題を扱っています。

2. 信頼性

人間の専門家による厳格な検証により、不適切な問題や不公平なテストを除外しています。

3. 包括性

単純なコード生成ではなく、以下の総合的な能力を評価：

問題理解力
コードベース解析能力
デバッグスキル
品質保証意識

4. 産業標準

現在、AIコーディング能力の事実上の業界標準として広く認知されています。

注意点・制限事項

データ汚染の可能性

公開されたGitHubリポジトリを使用しているため、大規模言語モデルの訓練データに含まれている可能性

範囲の制限

Python生態系に限定
特定のオープンソースプロジェクトのみ
エンタープライズ環境の複雑さは反映されていない

評価の制約

静的データセットのため、動的な要求変更に対応できない
ユーザーとのインタラクションが必要な問題は含まれていない

SWE-bench Verifiedは、AIのコーディング能力を測定する最も信頼性の高いベンチマークとして、Claude Sonnet 4.5が77.2%という圧倒的なスコアを記録したことで、実世界のソフトウェア開発タスクにおけるAIの実用性を証明する重要な指標となっています。

どこで見ればいいの？

主要なリーダーボードサイト

SWE-bench 公式サイト（最も権威のある情報源）

URL: https://www.swebench.com/

特徴:

SWE-bench開発チームが直接運営
最も信頼性が高い公式データ
SWE-bench Verified、Lite、Full版すべてを確認可能
個別モデルの詳細分析も提供

確認できる情報:

モデル別スコア（% Resolved）
コスト効率（$/タスク）
使用されたエージェント/スキャフォールド
提出日時とバージョン情報

Vals AI（包括的なベンチマーク追跡）

URL: https://www.vals.ai/benchmarks/swebench

特徴:

複数のベンチマークを統合追跡
詳細な統計分析とグラフ
時系列でのパフォーマンス推移
思考型モデル（Thinking models）の特別評価

追加価値:

モデル比較機能
詳細なメトリクス分析
開発チーム別の成果追跡

Epoch AI Benchmarking Hub

URL: https://epoch.ai/benchmarks/swe-bench-verified.html

特徴:

学術的な視点からの詳細分析
複数ベンチマークの横断比較
研究論文レベルの詳細データ
独自の評価手法も併用

学術的価値:

評価手法の詳細説明
統計的有意性の検証
研究コミュニティで引用される信頼性

LLM Stats

URL: https://llm-stats.com/benchmarks/swe-bench-verified

特徴:

シンプルで見やすいランキング形式
価格・速度との比較
コンテキストウィンドウサイズとの関連分析

SWE-bench Live（リアルタイム評価）

URL: https://swe-bench-live.github.io/

特徴:

リアルタイムでの新しい問題評価
既存のSWE-bench Verifiedとは異なる動的評価
最新モデルの即座の評価が可能

各サイトの使い分け

日常的な確認: SWE-bench 公式サイト

最新の公式スコアを確認
信頼性の高いデータが必要な場合

詳細分析: Vals AI

複数モデルの比較分析
時系列での性能推移を確認
コスト効率を重視する場合

学術研究: Epoch AI

論文執筆や研究での引用
評価手法の詳細理解
統計的分析が必要な場合

簡単な確認: LLM Stats

素早くランキングを確認
価格との比較が重要な場合

🔍 効率的な確認方法

1. 基本的な流れ

SWE-bench公式で最新の公式スコアを確認
Vals AIで詳細な比較分析
必要に応じてEpoch AIで学術的な詳細を確認

2. 特定モデルの追跡

各サイトでモデル名（例：claude-sonnet-4-5）で検索
複数のバージョンや日付別スコアを比較
エージェント/スキャフォールドの影響も考慮

3. 最新情報のキャッチアップ

SWE-bench公式のNewsセクションをチェック
Redditのr/ClaudeAI、r/singularityで最新議論を確認
各モデル開発会社の公式ブログを監視

⚠️ 注意点

スコアの解釈

同じモデルでも使用するエージェント/スキャフォールドで大きく性能が変わる
評価日時によってAPIの状態が異なる可能性
コスト効率も重要な評価軸

データの更新頻度

公式サイトが最も早く更新
第三者サイトは若干の遅延がある可能性
新モデルリリース直後は数日〜1週間の遅延あり

これらのサイトを組み合わせることで、特定LLMのSWE-bench Verifiedでの性能を包括的に把握できます。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up