Claude・Gemini・GPT 13構成を実タスクで比較したら、ベンチマークの順位と全然違った話

Last updated at 2026-02-22Posted at 2026-02-22

TL;DR

汎用ベンチマークのスコアで LLM を選ぶのは危険
コード生成1位のモデルが、Agentic RAG では8位に転落する
Thinking/Reasoning モードは万能ではなく、タスクによって逆効果になる
タスクごとに最適モデルを組み合わせたらコスト79%削減 & 品質3%p向上を達成
GPT の Reasoning モードは空応答率21〜23%でプロダクション使用に要注意

はじめに

「MMLU で○○%」「HumanEval で1位」——こうしたベンチマークスコアを見てモデルを選んでいませんか？

私たちは QueryPie AI の開発チームです。最近私たちが進めたAX (AI Transformation) プロジェクトにおいて、日本の給与システムという、複雑な社会保険制度・年末調整・住民税特別徴収が絡む専門ドメインで、エージェントを作成するためにLLMを活用しています。

今回のプロジェクトを進めるにあたり、エージェントの役割に応じて、コスト／性能が最適化されたモデルを見つけるために、Anthropic（Claude）・Google（Gemini）・OpenAI（GPT）の 13モデル構成を、実際のプロダクションパイプラインで比較評価しました。

結論から言うと、汎用ベンチマークの順位と実タスクの順位は全然違いました。

本記事はその検証レポートです。

検証環境

対象システム：AI Check

AI Checkとは、給与担当者が自然言語（日本語）で記述した給与検査観点（CheckPoint）を、実行可能なSQLクエリへ自動変換するシステムです。ユーザーが複雑なSQL文法を知らなくとも、自然言語で検査条件を記述すれば、当該条件に合致する対象者をデータベースから抽出できるようにします。

対象データベースは300以上のテーブル、1,350以上のカラムで構成されており、カラム名は FPPAR03, FRPAP15 のような内部コード（MFID）形式です。LLMが自然言語から直接正確なSQLを生成するのは困難なため、問題を3段階に分離するパイプライン設計を採用しています。

自然言語（日本語）
  ↓ [Stage 1] NL to Pseudocode Agent（コード生成）
CTE形式の擬似コード
  ↓ [Stage 2] MFID Mapping Agent（Agentic RAG）
MFID がマッピングされた擬似コード
  ↓ [Stage 3] Query Translation Agent
実行可能 SQL

今回の評価対象は Stage 1（コード生成） と Stage 2（Agentic RAG） です。

評価対象モデル（13構成）

プロバイダー	モデル	Think/Reasoning
Anthropic	Claude Haiku	基本 / Extended Thinking
	Claude Sonnet	基本 / Extended Thinking
	Claude Opus	基本 / Extended Thinking
Google	Gemini 3 Flash	基本 / Thinking
	Gemini 3 Pro	基本 / Thinking
OpenAI	GPT-5.2	基本 / Reasoning
	GPT-5 Mini	基本のみ

データセット

タスク	サンプル数	内容
コード生成	175件	自然言語 → CTE 擬似コード変換
Agentic RAG	93件	ドメイン用語 → MFID マッピング

評価指標

コード生成：

伝統的指標：BLEU、ROUGE-L、BERT-F1
LLM-as-a-Judge（GPT-4）：構文正確性・意味等価性・条件完全性・構造的類似性の4次元×5点 = 20点満点

Agentic RAG：

Recall@K、MRR（Mean Reciprocal Rank）
ツール呼び出し効率性

結果①：コード生成タスク

品質ランキング（LLM-as-a-Judge 基準）

順位	モデル	スコア
1	Claude Sonnet（Think）	67.3%
2	Claude Sonnet	66.1%
3	Claude Opus	65.9%
4	Claude Opus（Think）	65.4%
5	Gemini 3 Pro（Think）	65.1%

Claude が上位を独占。GPT 勢はこのタスクでは下位に沈みました。

Thinking モードの効果

モデル	基本 → Think	変化
Claude Sonnet	66.1% → 67.3%	+1.2%p ✅
Gemini 3 Pro	64.0% → 65.1%	+1.1%p ✅
Claude Haiku	—	-1.8%p ❌
GPT-5.2	—	-10.6%p ❌❌

GPT-5.2 の Reasoning モードで -10.6%p は衝撃的でした。 Thinking = 常に良い、ではありません。

空応答率（プロダクション観点で最重要）

モデル	空応答率	判定
Claude 全モデル	0%	✅ プロダクション OK
Gemini 全モデル	0%	✅ プロダクション OK
GPT-5.2	2.3%	⚠️ 注意
GPT-5.2（Reasoning）	21.1%	❌ プロダクション不可
GPT-5 Mini	23.4%	❌ プロダクション不可

品質スコアがどれだけ良くても、5回に1回応答しないモデルは使えません。タイムアウト300秒でこの結果です。

コスト効率性

モデル	1Kリクエストあたりコスト	品質	効率性
Gemini 3 Flash	$16.13	61.7%	3.83点/$
Gemini 3 Pro（Think）	$75.56	65.1%	0.86点/$
Claude Sonnet（Think）	$133.00	67.3%	0.51点/$

コスパ最強は Gemini 3 Flash。品質差5.6%pに対してコストは1/8。

結果②：Agentic RAG タスク

品質ランキング（MRR 基準）

順位	モデル	MRR
1	Claude Opus	78.9%
2	Claude Opus（Think）	72.3%
3	GPT-5.2（Reasoning）	66.9%
4	Gemini 3 Pro（Think）	59.9%
5	GPT-5.2	59.3%

注目すべきは GPT-5.2（Reasoning）の3位。 コード生成では12位だったモデルが、ここでは3位に浮上しています。

Thinking モードの効果（コード生成と正反対）

モデル	コード生成での効果	RAG での効果
GPT-5.2	-10.6%p ❌	+7.6%p ✅
Gemini 3 Flash	—	+8.1%p ✅
Claude Opus	-0.5%p	-6.6%p ❌
Claude Sonnet	+1.2%p	-5.6%p ❌

GPT-5.2 は完全に正反対のパターンを記録しました。Reasoning モードは複雑な検索推論には向いているが、定型的なコード生成には向いていない、ということです。

最もインパクトのある発見：タスク別モデル順位の激変

モデル	コード生成順位	RAG 順位	変動
Claude Sonnet（Think）	1位	8位	↓7
GPT-5.2（Reasoning）	12位	3位	↑9
Claude Opus	3位	1位	↑2

同じモデルがタスクによってここまで順位が変わる。 これがベンチマークだけでモデルを選んではいけない最大の理由です。

実践：異種モデルパイプラインでコスト79%削減

169通りの組み合わせからパレート最適を導出

13モデル × 13モデル = 169 の組み合わせを分析しました。

推奨構成

シナリオ	コード生成	Agentic RAG	コスト	品質
現行	Claude Sonnet	Claude Sonnet	$277	62%
予算重視	Gemini 3 Flash	Gemini 3 Flash（Think）	$23（-92%）	54%
バランス	Gemini 3 Flash	Claude Haiku（Think）	$58（-79%）	65%（+3%p）
最高品質	Claude Sonnet（Think）	Claude Opus	$356	74%（+12%p）

🎯 バランス構成が最もおすすめ。 コスト79%削減しながら品質が上がるという、単一モデルでは不可能な結果です。

まとめ：LLM 選定で気をつけるべき5つのこと

1. ベンチマークスコアを鵜呑みにしない

汎用ベンチマークの順位と、自分のタスクでの順位は別物です。自分のドメイン、自分のタスクで評価しましょう。

2. Thinking/Reasoning モードは万能ではない

タスクによっては10%以上スコアが下がります。必ず有効/無効の両方をテストしてください。

3. 空応答率を必ず測定する

品質スコアだけでなく、実際に応答が返ってくるかを測定しましょう。GPT の Reasoning モードは21〜23%が空応答でした。

4. 異種モデルパイプラインを検討する

タスクごとに最適なモデルが異なるなら、パイプラインの各段階に別のモデルを使うのは合理的です。同じモデルを全段階に使い続ける必要はありません。

5. コスト効率性を指標に含める

最高品質モデルが常にベストとは限りません。品質/コストの比率で評価すると、見えてくる景色が変わります。

詳細データについて

本記事は検証結果の要約版です。

13モデルの全比較データ、評価フレームワークの設計詳細、パイプラインアーキテクチャの図表を含む完全版ホワイトペーパーを公開しています。

LLM をプロダクションに組み込もうとしている方の参考になれば幸いです。

本研究は QueryPie AI の開発者 Edwin Park が執筆し、CEO の Brant がnoteで要約を紹介しています。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up