0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【速報・図解】Claude Opus 4.8 が出た — ベンチマークより「正直さ」が本命

0
Posted at

Anthropic が本日 Claude Opus 4.8 をリリースしました。ベンチマークは順当に伸びていますが、この記事で一番伝えたいのは「数字」ではなく「正直さ」のアップグレードです。

この記事は誰向けか

  • Claude Code や AI エージェントで実際にコードを書かせているエンジニア
  • どのモデルをデフォルトにするか迷っているチームリーダー
  • 「ベンチマークの数字」より「実務で何が変わるか」を知りたい人
  • 長時間動くエージェント(long-running agent)を運用している人

当てはまったら、3 分だけください。

0. まず数字(でも本命じゃない)

公式の比較表がこちらです。

Opus 4.8 と Opus 4.7 / GPT-5.5 / Gemini 3.1 Pro の比較

主要な項目を表にまとめます。

ベンチマーク Opus 4.8 Opus 4.7 GPT-5.5 Gemini 3.1 Pro
Agentic coding (SWE-Bench Pro) 69.2% 64.3% 58.6% 54.2%
Terminal coding (Terminal-Bench 2.1) 74.6% 66.1% 78.2% 70.3%
推論 HLE(ツールなし/あり) 49.8 / 57.9% 46.9 / 54.7 41.4 / 52.2 44.4 / 51.4
Computer use (OSWorld-Verified) 83.4% 82.8% 78.7% 76.2%
ナレッジワーク (GDPval-AA) 1890 1753 1769 1314
金融分析 (Finance Agent v2) 53.9% 51.5% 51.8% 43.0%

正直に書くと、Terminal-Bench 2.1 だけは GPT-5.5(78.2%)に負けています(Opus 4.8 は 74.6%)。前世代の 66.1% からは大きく伸びましたが、ここは 1 位じゃないです。モデル選びは「自分が何をやるか」で決めましょう。

1. 本命は「正直さ」— コード欠陥の見逃しが約 4 分の 1 に

ここが一番大事です。Opus 4.8 は、コードの欠陥を黙って通してしまう確率が 4.7 の約 4 分の 1 になりました。不確実な箇所を自分から指摘し、怪しい入力に疑問を投げ、筋の悪い計画には反論してくれます。

小さい話に聞こえますが、違います。

エージェントに仕事を任せるとき、ボトルネックは「能力」ではなく「サイレント障害」でした。バグを黙って埋め込むモデルより、「この入力、本当に null にならない?確認して」と言ってくれるモデルの方が、結果的に安いんです。

Before(4.7 以前):
  きれいに見える関数を書く → 隠れたエッジケースのバグ → 何も言わない → 本番で発覚

After(4.8):
  同じ関数を書く → 「ここのエッジケースは自信がない、入力が空でないか確認して」
  または「その計画には穴がある」とハッキリ言う

Claude を「勝手に仕事を仕上げてくれる同僚」として使う人には、このキャリブレーションの効いた正直さは、ベンチマーク数ポイントより価値があります。

2. 知っておくべき 3 つのプロダクト変更

  1. Dynamic Workflows(Claude Code リサーチプレビュー) — 数百の subagent を並列実行。数十万行のコードベース移行みたいな大仕事向け。
  2. Effort コントロール(claude.ai / Cowork) — 「どれだけ考えるか」を手動で選べる。高くすれば深く、低くすれば速く。速度と品質のトレードオフが自分の手に戻ってきました。
  3. Messages API に system を途中挿入できる(しかも prompt cache を壊さない) — 長いタスクの途中で新しい指示を追加してもキャッシュが効く。long-running agent を作っている人なら、この価値はすぐ分かるはず。

3. 価格:通常は据え置き、Fast は 3 倍安く

  • 通常:入力 $5 / 100万トークン、出力 $25 / 100万トークン — 4.7 と同じ、値上げなし。
  • Fast モード:入力 $10 / 出力 $50 — 従来の Fast 系より 3 倍安い。しかも中身は小型モデルじゃなくて Opus のまま、出力が速いだけ。

Databricks の実測では、4.8 はツールの使い方が上手くステップ数も少ないため、トークンコストが 4.7 比で 61% 低下したとのこと。

モデル ID は claude-opus-4-8、本日から全プラットフォームで利用可能です。

まとめ表

やりたいこと Opus 4.8 で見るべき点
コード / エージェント開発 SWE-Bench Pro 69.2% + 「指摘してくれる」正直さ → デフォルト化
長時間エージェント運用 Messages API の system 途中挿入(cache を壊さない)
超大規模なリファクタ Claude Code の Dynamic Workflows(数百並列)
コスト重視 通常据え置き / Fast 3 倍安 / 実測トークン -61%

ベンチマークの伸びより、「自信がないときに言ってくれる」モデルかどうか。エージェント時代の本当の堀はそこだと思います。次は Claude Mythos(より高い知能クラス、現在はサイバーセキュリティ向けに一部組織へ先行提供)を追いかけます。お楽しみに〜!

数字と画像は Anthropic 公式発表(anthropic.com/news/claude-opus-4-8)より。詳細な評価は System Card を参照。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?