【速報・図解】Claude Opus 4.8 が出た — ベンチマークより「正直さ」が本命

Posted at 2026-05-29

Anthropic が本日 Claude Opus 4.8 をリリースしました。ベンチマークは順当に伸びていますが、この記事で一番伝えたいのは「数字」ではなく「正直さ」のアップグレードです。

この記事は誰向けか

当てはまったら、3 分だけください。

公式の比較表がこちらです。

主要な項目を表にまとめます。

ベンチマーク	Opus 4.8	Opus 4.7	GPT-5.5	Gemini 3.1 Pro
Agentic coding (SWE-Bench Pro)	69.2%	64.3%	58.6%	54.2%
Terminal coding (Terminal-Bench 2.1)	74.6%	66.1%	78.2%	70.3%
推論 HLE（ツールなし/あり）	49.8 / 57.9%	46.9 / 54.7	41.4 / 52.2	44.4 / 51.4
Computer use (OSWorld-Verified)	83.4%	82.8%	78.7%	76.2%
ナレッジワーク (GDPval-AA)	1890	1753	1769	1314
金融分析 (Finance Agent v2)	53.9%	51.5%	51.8%	43.0%

正直に書くと、Terminal-Bench 2.1 だけは GPT-5.5（78.2%）に負けています（Opus 4.8 は 74.6%）。前世代の 66.1% からは大きく伸びましたが、ここは 1 位じゃないです。モデル選びは「自分が何をやるか」で決めましょう。

ここが一番大事です。Opus 4.8 は、コードの欠陥を黙って通してしまう確率が 4.7 の約 4 分の 1 になりました。不確実な箇所を自分から指摘し、怪しい入力に疑問を投げ、筋の悪い計画には反論してくれます。

小さい話に聞こえますが、違います。

エージェントに仕事を任せるとき、ボトルネックは「能力」ではなく「サイレント障害」でした。バグを黙って埋め込むモデルより、「この入力、本当に null にならない？確認して」と言ってくれるモデルの方が、結果的に安いんです。

Before（4.7 以前）:
  きれいに見える関数を書く → 隠れたエッジケースのバグ → 何も言わない → 本番で発覚

After（4.8）:
  同じ関数を書く → 「ここのエッジケースは自信がない、入力が空でないか確認して」
  または「その計画には穴がある」とハッキリ言う

Claude を「勝手に仕事を仕上げてくれる同僚」として使う人には、このキャリブレーションの効いた正直さは、ベンチマーク数ポイントより価値があります。

Dynamic Workflows（Claude Code リサーチプレビュー） — 数百の subagent を並列実行。数十万行のコードベース移行みたいな大仕事向け。
Effort コントロール（claude.ai / Cowork） — 「どれだけ考えるか」を手動で選べる。高くすれば深く、低くすれば速く。速度と品質のトレードオフが自分の手に戻ってきました。
Messages API に system を途中挿入できる（しかも prompt cache を壊さない） — 長いタスクの途中で新しい指示を追加してもキャッシュが効く。long-running agent を作っている人なら、この価値はすぐ分かるはず。

通常：入力 $5 / 100万トークン、出力 $25 / 100万トークン — 4.7 と同じ、値上げなし。
Fast モード：入力 $10 / 出力 $50 — 従来の Fast 系より 3 倍安い。しかも中身は小型モデルじゃなくて Opus のまま、出力が速いだけ。

Databricks の実測では、4.8 はツールの使い方が上手くステップ数も少ないため、トークンコストが 4.7 比で 61% 低下したとのこと。

モデル ID は claude-opus-4-8、本日から全プラットフォームで利用可能です。

やりたいこと	Opus 4.8 で見るべき点
コード / エージェント開発	SWE-Bench Pro 69.2% + 「指摘してくれる」正直さ → デフォルト化
長時間エージェント運用	Messages API の system 途中挿入（cache を壊さない）
超大規模なリファクタ	Claude Code の Dynamic Workflows（数百並列）
コスト重視	通常据え置き / Fast 3 倍安 / 実測トークン -61%

ベンチマークの伸びより、「自信がないときに言ってくれる」モデルかどうか。エージェント時代の本当の堀はそこだと思います。次は Claude Mythos（より高い知能クラス、現在はサイバーセキュリティ向けに一部組織へ先行提供）を追いかけます。お楽しみに〜！

数字と画像は Anthropic 公式発表（anthropic.com/news/claude-opus-4-8）より。詳細な評価は System Card を参照。