35
24

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Claude Sonnet 4.6 vs Opus 4.6 徹底比較──ベンチマーク・コスト・速度のデータで読む「どちらを使うべきか」

35
Posted at

2026年2月、Anthropicは立て続けに2つのモデルをリリースした。2月5日のClaude Opus 4.6と、2月17日のClaude Sonnet 4.6。GPQA Diamond(PhD級の科学問題)ではOpusがSonnetに17.2ポイントの大差をつける一方、Finance Agent(金融分析タスク)ではSonnetが逆転勝利しています。SWE-bench(実在バグの修正能力)に至ってはわずか1.2ポイント差で、実質同等だ。

「高い方が強い」は、もう成り立たない。どちらを選ぶかはタスク次第であり、その判断にはベンチマークの「読み方」とコストの「実効値」の理解が必要です。本記事では、公式データと第三者評価をもとに2モデルの使い分け基準を整理します。

1. スペックシート──数字で見る2モデルの全体像

まず基本スペックを並べる。解釈は後段に回すので、ここでは事実だけ確認したい。

項目 Sonnet 4.6 Opus 4.6
リリース日 2026/2/17 2026/2/5
入力コスト/MTok $3 $5
出力コスト/MTok $15 $25
コンテキストウィンドウ 200K(1M beta) 200K(1M beta)
最大出力トークン 64K 128K
TTFT(応答開始までの時間)1 約180–300ms 約500–700ms
出力速度(標準)1 約40–60 t/s 約67–74 t/s
Fast Mode なし 対応(6倍価格)
Batch割引 50% 50%
知識カットオフ 2025年8月 2025年5月
学習データカットオフ 2026年1月 2025年8月

コスト比はすべてのカテゴリで1.67倍です。入力も出力もBatchも、きれいに同じ倍率になっている。

1.67倍という額面のコスト差は、実際の利用ではもっと縮まる場合があります。詳細はセクション4「速度とコストの実効値」で解説します。

出力速度を見ると、Opusの方がSonnetより速い。直感に反するかもしれないが、Sonnetの優位はTTFT(最初のトークンが返るまでの時間)にあります。チャットの体感速度はTTFTに大きく左右されるため、Sonnetの方が「速く感じる」場面が多い。この点はセクション4で掘り下げます。

ちなみにOpus系列の$5/$25という価格は、Opus 4.5(2025年11月)で初めて設定されたものだ。それ以前のOpus 4.1/4/3は$15/$75で、入力も出力も3分の1に下がった。この価格改定が、Opusを現実的な選択肢に変えた転換点です。

Opus 4.1以前は「Opusは高すぎて検証用にしか使えない」という声が多かった。4.5世代からの67%値下げにより、本番ワークロードへの投入が現実的になっています。4.6はこの価格を据え置いている。

2. ベンチマーク解説──「何を測っているのか」を理解する

ベンチマークスコアの羅列は巷にあふれている。ただ、「そのベンチマークが何を測っているのか」まで踏み込んだ記事は少ない。数字の意味がわからなければ比較しようがないので、各ベンチマークの測定対象を説明した上でスコアを示します。

SWE-bench Verified

GitHubの実在リポジトリから抽出された、実際のバグ修正タスクです。テストが通るコードを生成できるかを見る。「ちゃんと動くコードを書けるか」の直接的な指標だ。

モデル スコア
Opus 4.6 80.8%
Sonnet 4.6 79.6%

差は1.2ポイント。日常のコーディングタスクで、両者に実質的な差は出ないと見てよい。

GPQA Diamond

大学院レベルの科学問題(物理、化学、生物学)を集めたベンチマークです。PhD保持者が作問し、専門外のPhD保持者では正答率が低い問題ばかりで構成されている。純粋な科学的推論力を測ります。

モデル スコア
Opus 4.6 91.3%
Sonnet 4.6 74.1%

17.2ポイント差。本記事で取り上げるベンチマークの中で最大のギャップだ。科学的推論が求められるタスクでは、OpusとSonnetの能力差は明確に表れます。

ARC-AGI-2

見たことのないパターンに対する汎化能力を測定します。訓練データに存在しない新しいルールを推測し、適用する力が問われる。「パターンマッチングではなく、本当に推論できるか」のテストとされている。

モデル スコア
Opus 4.6 68.8%
Sonnet 4.6 60.4%

8.4ポイント差。ただし後述するように、このベンチマークではGemini 3.1 Proが両者を上回っている。

Terminal-Bench 2.0

ターミナル操作のみで複雑なタスクを完遂する能力を測ります。ファイル操作、パッケージインストール、設定変更など、自律的に実行できるかが問われる。エージェント的な利用シナリオでの実力指標になります。

モデル スコア
Opus 4.6 65.4%
Sonnet 4.6 59.1%

6.3ポイント差。エージェントとして自律的に作業させるならOpusの優位性は無視できない。

GDPval-AA

戦略的な交渉や対人推論の能力を測定するベンチマークです。ビジネスシーンでの意思決定、交渉戦略の策定といった「知識労働」の質をEloレーティングで評価します。

モデル スコア
Opus 4.6 1606 Elo
Sonnet 4.6 1633 Elo

Sonnetが27 Elo上回っている。コストが安い方がスコアで勝つという、価格と性能の逆転が起きている。

Finance Agent

金融データの分析、投資判断、リスク評価といった金融特化のタスクセットです。

モデル スコア
Opus 4.6 60.7%
Sonnet 4.6 63.3%

こちらもSonnetが2.6ポイント上回る。GDPval-AAと合わせると、「ビジネス判断系はSonnetが強い」という傾向が読み取れます。なぜこうなるのかは正直よくわからない。モデルアーキテクチャの違いか、学習データの配分か。外部からは検証のしようがない。

OSWorld

OS操作(マウスクリック、キーボード入力、画面認識)を通じてタスクを完了する能力を測定します。Computer Useの実力評価に直結する。

モデル スコア
Opus 4.6 約72.5%
Sonnet 4.6 約72.5%

ほぼ同等です。Computer Use用途ではモデル選択による差はないと言ってよい。

BrowseComp

Webを検索して複雑な質問に回答する能力を測ります。情報の収集、統合、判断を要するタスクで、検索エンジンの使い方を含めた総合的なWeb情報処理能力が問われる。

モデル スコア
Opus 4.6 84.0%
Sonnet 4.6 74.7%

9.3ポイント差。リサーチ系のタスクではOpusが強い。

総合比較

8つのベンチマークをまとめると以下の通りです。

ベンチマーク 測定対象 Opus 4.6 Sonnet 4.6 勝者
SWE-bench Verified 実在バグの修正 80.8% 79.6% ほぼ同等
GPQA Diamond PhD級の科学推論 91.3% 74.1% Opus(+17.2)
ARC-AGI-2 未知パターンへの汎化 68.8% 60.4% Opus(+8.4)
Terminal-Bench 2.0 ターミナル自律操作 65.4% 59.1% Opus(+6.3)
GDPval-AA 戦略的交渉・判断 1606 Elo 1633 Elo Sonnet(+27)
Finance Agent 金融分析・判断 60.7% 63.3% Sonnet(+2.6)
OSWorld OS操作(Computer Use) ~72.5% ~72.5% 同等
BrowseComp Web情報検索 84.0% 74.7% Opus(+9.3)

8つのうちOpusが4つ、Sonnetが2つ、同等が2つ。数の上ではOpusが有利だが、コーディング(SWE-bench)が同等で、ビジネス判断系(GDPval-AA、Finance Agent)ではSonnetが逆転する構図は覚えておく価値があります。

なお、ベンチマークスコアは評価条件(Extended Thinkingの有無、努力レベル設定、ツールアクセスの有無、試行回数)によって変動する。上記のうちSWE-bench VerifiedとGPQA DiamondはAnthropic公式発表値だが、Terminal-Bench 2.0、GDPval-AA、Finance Agentなどは第三者による計測結果であり、公式の確認が取れていないものも含まれます。条件が異なれば結果も変わりうる点は留意が必要です。

3. 競合との位置づけ──GPT-5.2、Gemini 3.1 Proとの比較

Claude同士の比較だけでは全体像がつかめない。GPT-5.2(2025年12月リリース)とGemini 3.1 Pro(2026年2月19日リリース)を加えて、業界での立ち位置を確認します。

ベンチマーク Opus 4.6 Sonnet 4.6 GPT-5.2 Gemini 3.1 Pro
SWE-bench 80.8% 79.6% 80.0% 80.6%
ARC-AGI-2 68.8% 60.4% 54.2% 77.1%
GDPval-AA 1606 1633 ~1462 1317
Terminal-Bench 2.0 65.4% 59.1% 64.7% ~54%

SWE-benchは4モデルすべてが79–81%の範囲に収束しています。コーディング能力についてはフロンティアモデル間で均衡状態に入ったと言ってよい。差別化はコーディング以外の軸で起きている。

ARC-AGI-2ではGemini 3.1 ProがOpus 4.6を8.3ポイント上回っています(77.1% vs 68.8%)。未知パターンへの汎化推論において、Claudeが常に最強とは限らない。一方でGDPval-AA(知識労働タスク)ではClaudeが圧倒しており、ベンチマークごとに各モデルの得意領域が異なります。

料金も比較しておきます。

モデル 入力/MTok 出力/MTok
Claude Opus 4.6 $5 $25
Claude Sonnet 4.6 $3 $15
GPT-5.2 $1.75 $14
Gemini 3.1 Pro $2 $12
Claude Haiku 4.5 $1 $5

GPT-5.2はOpusに近い性能を入力$1.75で提供している。Gemini 3.1 Proも$2/$12と安い。Claudeの強みはGDPval-AAに代表される知識労働タスクとTerminal-Benchのエージェント能力だが、コスト対性能比だけ見れば競合に押される場面もあります。

余談だが、GPT-5.2のGPQA Diamondは92.4%でOpus 4.6の91.3%をわずかに上回る。Gemini 3.1 Proに至っては94.3%で、科学推論では3モデルともClaude以上です。GPQA Diamondの「Opus圧勝」はあくまでClaude内部の話であり、業界全体では少し景色が異なる。

4. 速度とコストの実効値──額面通りにはいかない理由

4-1. 速度特性の違い

セクション1で示した通り、出力速度(トークン/秒)はOpusの方が速い。しかしClaude Codeでの体感速度はSonnetの方が2–3倍速く感じるという声が多いです。

理由はTTFT(Time To First Token)の差にあります。第三者計測ではSonnetが180–300msで最初のトークンを返し始めるのに対し、Opusは500–700msかかるとされている。人間がインタラクティブに使う場合、「入力してから何か出てくるまでの待ち時間」が体感速度を支配する。出力が始まってからのスループットは意外と気にならないものです。

Anthropicのearly testingでは、Claude Code利用者がSonnet 4.5よりSonnet 4.6を約70%の確率で好んだという結果が出ている(Anthropic公式)。この選好率の高さは、体感速度の良さが一因だろう。

4-2. 実効コスト問題

ここが本記事で最も伝えたいポイントかもしれません。

額面ではSonnetはOpusの60%のコスト(1.67倍差)です。しかし、第三者の計測機関であるArtificial Analysisが公表したIntelligence Index評価スイートの結果2によると、同一ベンチマークセットに対する出力トークン消費量はSonnetが約74M、Opusが約58Mだった。Sonnetが28%多くトークンを消費している計算になる。

Sonnetのトークン消費量が多い理由は、推論過程(Extended Thinking)でより多くの試行錯誤を行うためと推測されます。額面の1.67倍差は、推論が重いタスクでは実効1.1〜1.3倍程度まで縮小する場合があります。「Sonnetの方が安い」という前提を常に信用するのは危険です。

具体的な数字で示します。

モデル 出力トークン消費量 総コスト
Opus 4.6 約58M 約$2,486
Sonnet 4.6 約74M 約$2,088

Sonnetの総コストは依然Opusより低い。だが、トークン単価の40%差から期待されるほどのコスト削減にはならない。実際のコスト差は約16%です。額面の40%差とはかなり違う。

ただし、これは推論負荷の高いベンチマークスイートでの結果であり、単純なQ&Aやコード補完のような軽いタスクではトークン消費量の差は小さくなるはずです。この辺の実測データが出揃うまで、最終的な判断は保留したい。

4-3. Opus専用Fast Mode

Fast Modeは同じOpus 4.6のモデル品質で、出力速度を約2.5倍にする機能です。Claude Code上では/fastコマンドで切り替えられます。

コストは標準の6倍(入力$30/MTok、出力$150/MTok)。Batch処理のように大量のトークンを流す用途には向かないが、「Opusの品質でSonnet並みの速さがほしい」というインタラクティブな開発では有力な選択肢になります。

注意点として、Fast Modeへの切り替え時にプロンプトキャッシュが無効化される。セッション途中で頻繁に切り替えるとキャッシュの恩恵を失い、コストがさらに膨らみます。また、Fast ModeはAnthropicの直接プラットフォーム(Claude Code CLI、VS Code拡張、Console、GitHub Copilot)でのみ利用可能で、AWS BedrockやGoogle Vertex AIでは使えません。

5. 機能差分──ベンチマークに現れない違い

スコアには表れないが、実務で影響する機能差があります。

機能 Sonnet 4.6 Opus 4.6
Agent Teams -- 対応(Opus専用)
Fast Mode -- 対応(Opus専用)
最大出力トークン 64K 128K
METR最長タスク -- 14時間30分
無料プラン既定モデル Sonnet --
Claude Code選好率 Sonnet 4.5より70%の確率で選好 --
Extended Thinking 対応 対応
Vision / Tool Use 対応 対応
Web Search 対応 対応
Computer Use 対応 対応

Agent Teams はOpus専用の機能で、複数のAIエージェントが自律的に連携してタスクを遂行します。1つのエージェントがコードを書き、別のエージェントがテストを実行し、さらに別のエージェントがドキュメントを更新する、といったワークフローを自動構築できます。大規模プロジェクトでの自律的作業に適した機能だが、実運用での安定性については、まだ十分な報告が出ていない。

METR(Model Evaluation & Threat Research)のTask Horizon評価では、Opusが単一タスクに自律的に取り組める時間として14時間30分が記録されました。長時間の自律作業が求められるエージェント用途では、この持続力が差別化要因になります。

出力トークンの上限差(64K vs 128K)も見落としがちだが重要だ。大規模なコード生成や長文ドキュメントの一括出力で、64Kの壁に当たることは実際にある。

Agent TeamsやFast ModeはAnthropicの直接プラットフォーム専用であり、AWS BedrockやGoogle Vertex AI経由では利用できません。クラウド経由で利用している場合、Opus専用機能の恩恵を受けられない点に注意が必要です。

6. 判断フローチャート──どちらを使うべきか

ユースケースごとの推奨をまとめます。

ユースケース 推奨 理由
日常コーディング Sonnet SWE-bench差1.2pt、コスト40%低い
科学論文の分析 Opus GPQAで17pt差
大規模コード生成(64K超) Opus 128K出力はOpus専用
チャットボット Sonnet TTFT速い、コスト効率良い
マルチエージェント Opus Agent Teams対応
長文ドキュメント(1Mコンテキスト) Opus MRCR 76%の検索精度
金融分析 Sonnet Finance Agentで逆転
バッチ処理 Sonnet 低単価 + Batch 50%割引
速度最優先 Opus(Fast Mode) 168–185 t/s

Sonnetで始めて、以下のいずれかに当てはまる場合にOpusへエスカレーションする、という運用が合理的です。

  1. Sonnetの出力品質に不満がある(特に科学・研究系タスク)
  2. 64Kを超える出力が必要
  3. 複数エージェントの連携が求められる
  4. 長時間(数時間以上)の自律作業をさせたい
  5. 1Mコンテキストで高い検索精度が必要

日本語コミュニティでは「Sonnet 4.6をデフォルトに、Opus 4.6は重要な局面で投入」というコンセンサスが形成されつつある。コーディング主体の開発者にとって、SWE-benchが実質同等である以上、Sonnetを標準にするのは合理的な判断だ。

ただし、コスト最適化を突き詰めるなら、GPT-5.2($1.75/$14)やGemini 3.1 Pro($2/$12)も候補に入ります。SWE-benchは4モデルが横並びなので、コーディング用途でClaudeにこだわる理由は、GDPval-AAのスコアやClaude Codeとのエコシステム統合に限られるかもしれない。

まとめ

「高い方が強い」は成り立たない。GDPval-AAとFinance AgentではSonnetがOpusを上回り、SWE-benchは実質同等です。一方、GPQAの17.2ポイント差やBrowseCompの9.3ポイント差はOpusの領域だ。

コスト比は全カテゴリで一律1.67倍。このシンプルさは判断を楽にするが、Sonnetの方がトークン消費量が多いという落とし穴があります。実効コスト差は額面ほど開かない。

まだ検証できていないこともある。1Mコンテキストでの日本語検索精度がMRCR v2の英語評価(76%)と同等かどうかは不明だし、Fast Modeのコスト対効果もユースケースごとの実測データが出揃わないと判断しにくい。

結局のところ、最適解はタスク分布で決まります。コーディング中心ならSonnet、研究・分析中心ならOpus、コスト重視なら競合も含めて検討する。万能な正解はない。

参考資料

Anthropic公式

ベンチマーク元

英語メディア

日本語メディア

  1. TTFT・出力速度は第三者による計測値であり、Anthropic公式の公表値ではない。利用環境やプロンプト長によって変動する。 2

  2. Artificial Analysisの一次データは同社のX(旧Twitter)投稿に基づく。独立した再現検証は確認できていない。

35
24
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
35
24

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?