Anthropic が本日 Claude Opus 4.8 をリリースしました。ベンチマークは順当に伸びていますが、この記事で一番伝えたいのは「数字」ではなく「正直さ」のアップグレードです。
この記事は誰向けか
- Claude Code や AI エージェントで実際にコードを書かせているエンジニア
- どのモデルをデフォルトにするか迷っているチームリーダー
- 「ベンチマークの数字」より「実務で何が変わるか」を知りたい人
- 長時間動くエージェント(long-running agent)を運用している人
当てはまったら、3 分だけください。
0. まず数字(でも本命じゃない)
公式の比較表がこちらです。
主要な項目を表にまとめます。
| ベンチマーク | Opus 4.8 | Opus 4.7 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Agentic coding (SWE-Bench Pro) | 69.2% | 64.3% | 58.6% | 54.2% |
| Terminal coding (Terminal-Bench 2.1) | 74.6% | 66.1% | 78.2% | 70.3% |
| 推論 HLE(ツールなし/あり) | 49.8 / 57.9% | 46.9 / 54.7 | 41.4 / 52.2 | 44.4 / 51.4 |
| Computer use (OSWorld-Verified) | 83.4% | 82.8% | 78.7% | 76.2% |
| ナレッジワーク (GDPval-AA) | 1890 | 1753 | 1769 | 1314 |
| 金融分析 (Finance Agent v2) | 53.9% | 51.5% | 51.8% | 43.0% |
正直に書くと、Terminal-Bench 2.1 だけは GPT-5.5(78.2%)に負けています(Opus 4.8 は 74.6%)。前世代の 66.1% からは大きく伸びましたが、ここは 1 位じゃないです。モデル選びは「自分が何をやるか」で決めましょう。
1. 本命は「正直さ」— コード欠陥の見逃しが約 4 分の 1 に
ここが一番大事です。Opus 4.8 は、コードの欠陥を黙って通してしまう確率が 4.7 の約 4 分の 1 になりました。不確実な箇所を自分から指摘し、怪しい入力に疑問を投げ、筋の悪い計画には反論してくれます。
小さい話に聞こえますが、違います。
エージェントに仕事を任せるとき、ボトルネックは「能力」ではなく「サイレント障害」でした。バグを黙って埋め込むモデルより、「この入力、本当に null にならない?確認して」と言ってくれるモデルの方が、結果的に安いんです。
Before(4.7 以前):
きれいに見える関数を書く → 隠れたエッジケースのバグ → 何も言わない → 本番で発覚
After(4.8):
同じ関数を書く → 「ここのエッジケースは自信がない、入力が空でないか確認して」
または「その計画には穴がある」とハッキリ言う
Claude を「勝手に仕事を仕上げてくれる同僚」として使う人には、このキャリブレーションの効いた正直さは、ベンチマーク数ポイントより価値があります。
2. 知っておくべき 3 つのプロダクト変更
- Dynamic Workflows(Claude Code リサーチプレビュー) — 数百の subagent を並列実行。数十万行のコードベース移行みたいな大仕事向け。
- Effort コントロール(claude.ai / Cowork) — 「どれだけ考えるか」を手動で選べる。高くすれば深く、低くすれば速く。速度と品質のトレードオフが自分の手に戻ってきました。
-
Messages API に
systemを途中挿入できる(しかも prompt cache を壊さない) — 長いタスクの途中で新しい指示を追加してもキャッシュが効く。long-running agent を作っている人なら、この価値はすぐ分かるはず。
3. 価格:通常は据え置き、Fast は 3 倍安く
- 通常:入力 $5 / 100万トークン、出力 $25 / 100万トークン — 4.7 と同じ、値上げなし。
- Fast モード:入力 $10 / 出力 $50 — 従来の Fast 系より 3 倍安い。しかも中身は小型モデルじゃなくて Opus のまま、出力が速いだけ。
Databricks の実測では、4.8 はツールの使い方が上手くステップ数も少ないため、トークンコストが 4.7 比で 61% 低下したとのこと。
モデル ID は claude-opus-4-8、本日から全プラットフォームで利用可能です。
まとめ表
| やりたいこと | Opus 4.8 で見るべき点 |
|---|---|
| コード / エージェント開発 | SWE-Bench Pro 69.2% + 「指摘してくれる」正直さ → デフォルト化 |
| 長時間エージェント運用 | Messages API の system 途中挿入(cache を壊さない) |
| 超大規模なリファクタ | Claude Code の Dynamic Workflows(数百並列) |
| コスト重視 | 通常据え置き / Fast 3 倍安 / 実測トークン -61% |
ベンチマークの伸びより、「自信がないときに言ってくれる」モデルかどうか。エージェント時代の本当の堀はそこだと思います。次は Claude Mythos(より高い知能クラス、現在はサイバーセキュリティ向けに一部組織へ先行提供)を追いかけます。お楽しみに〜!
数字と画像は Anthropic 公式発表(anthropic.com/news/claude-opus-4-8)より。詳細な評価は System Card を参照。
