1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

PR レビュー AI ベンチ:同一 PR を 5 ツールに渡した結果

1
Posted at

はじめに

「コードレビューを AI に任せれば楽になる」とよく言われますが、実際にどのツールが優秀なのか、どこに注意すべきかは、実際に試してみるしかありません。

本記事では、同一の Pull Request を ChatGPT GPT-5、Claude Opus 4.6、Cursor、GitHub Copilot、Cline の5つのツールに渡し、検出力と誤検出を比較した結果をまとめます。

ベンチ条件

  • 言語:TypeScript フロントエンド(Next.js 15 + React 19)
  • PR 規模:変更 6 ファイル・800 行
  • 意図的に仕込んだバグ
    • N+1 クエリ 1 箇所
    • メモリリーク 1 箇所
    • テストの例外処理漏れ 2 箇所
  • 評価軸
    • 仕込んだバグを何個見つけたか(検出)
    • 誤検出(本当は OK なコードを「バグ」と指摘)
    • 指摘の具体性

結果一覧

ツール 検出 誤検出 スコア
Claude Opus 4.6 4 / 4 1 ◎ 最高
ChatGPT GPT-5 3 / 4 2 ○ 良
Cursor (Claude / Auto) 4 / 4 1 ◎ 最高
GitHub Copilot 2 / 4 0 ○ 良(見逃し多め)
Cline (BYOK Claude) 4 / 4 3 △ 誤検出多め

※ 1 ケースのみのため参考値です。チーム・言語ごとに改めてベンチを取ることをおすすめします。

個別の所感

Claude Opus 4.6(Web)

長文文脈が強みのモデルで、ファイル横断の依存関係 までを読み込んでから指摘してくれます。N+1 クエリのような「実装単体では分かりにくいが、呼び出し側を見ると問題」というケースで強いです。誤検出 1 件は無害なコメントでした。

ChatGPT GPT-5

メモリリークを見逃しました。コードの「文脈の長さ」を Claude ほど深く読まないため、複数ファイルにまたがる問題で弱いことがあります。一方、対話で深掘りする UX は秀逸です。

Cursor (Claude / Auto)

IDE 統合型の強み が出ました。Cursor は背後で Claude を呼んでいますが、「ファイル間の文脈」も @file で渡してくれるため、Web 版 Claude より精度が高いケースがあります。コードレビューを「IDE 内で完結」させたい人には最適です。

GitHub Copilot

検出は 2 / 4 で見逃しが多いですが、誤検出はゼロです。「本当に問題な箇所のみ指摘する保守的なスタイル」 で、シニアエンジニアのチェックとセットで使うと効率的です。10 USD/月の料金を考えれば妥当な性能です。

Cline (BYOK Claude)

検出は 4 / 4 ですが、誤検出が 3 件と多めです。Cline は VS Code 拡張で「PR 全体を再構成して提案」する性質があり、過剰に動くケースがあります。ノイズが多いツールはレビュアーを疲れさせる ので、慎重に運用が必要です。

考察 1:「見逃さない」だけでなく「誤検出を減らす」も重要

Cline のように検出 4 / 4 でも、誤検出 3 件あるとレビュアーは「3 / 7 が無駄」と感じます。実務では 検出と誤検出のバランス が重要で、Claude Opus 4.6 と Cursor (Claude) のように「4 / 4 検出 + 1 件誤検出」のバランスが理想的です。

考察 2:IDE 統合型の強み

Cursor は単一ファイルだけでなく、プロジェクト全体の文脈 を AI に渡せます。Web チャット型の Claude や ChatGPT では難しい「複数ファイルにまたがる PR」のレビュー品質では、IDE 統合型が明らかに上です。

考察 3:保守的 vs 積極的の選択

スタイル ツール 向く運用
保守的(誤検出ゼロ重視) GitHub Copilot シニアの最終チェックとセット
標準(バランス重視) Claude Opus / Cursor 個人開発者・小規模チーム
積極的(多めに指摘) Cline (BYOK) 学習目的、レビュアー育成

チームへの推奨

コードレビューの主軸は Cursor + Claude または Web の Claude。GitHub Copilot は提案の品質は高い一方、見逃しが多いので、シニアエンジニアのチェックとセットで使うのが現実的です。

ベンチを再現する手順

  1. 任意のリポジトリで PR を作成(既存 PR でも OK)
  2. 各ツールに「以下の PR をレビューしてください。検出した問題を行番号付きで報告してください」と依頼
  3. 結果を「検出 / 誤検出 / 見逃し」の 3 分類で集計
  4. チームのコードベース・言語・規約に応じて評価軸を調整

私のベンチは TypeScript ですが、Python・Go・Rust など言語ごとに各ツールの得意・不得意は変わります。チームでベンチを取ることを強く推奨します。

まとめ

AI コードレビューは「すべてを置き換えるもの」ではなく、「人間レビュアーの補助」として使うのが現実的です。検出 4 / 4 でも誤検出 3 件出るツールでは、シニアエンジニアの時間を浪費します。

私が運営している AI 比較メディアでは、コードレビュープロンプトのテンプレや、AI コーディングツール 5 選の比較を公開しています:

参考になれば。


※ ベンチは 1 ケースの参考値です。チームコードベースや言語に依存して結果は変わります。

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?