出たてほやほやのClaude Opus 4.8を整理してみた

Last updated at 2026-06-04Posted at 2026-05-28

出典：Anthropic公式ブログ「Introducing Claude Opus 4.8」より引用

今回の記事は、「また新しいClaude出たけど、結局なにが変わったん？」を、サクッと要点キャッチアップする記事です。

はじめに

Claude Opus 4.8が公開されました（日本時間 2026年5月29日／米国時間 5月28日）。前バージョン4.7から、わずか6週間ほどでのアップデートです。

今回公式が一番に推していたのが、性能やスピードではなく 「正直さ(honesty)」 だったんです。「"正直さ"？はて...？」と引っかかったので、要点だけ整理してみました。

この記事でわかること

Opus 4.8で「結局なにが変わったのか」をざっくり把握できる
今回の「正直さ」とは何か（と、試す前の正直な所感）
新機能3つ（effort 選択 / ダイナミックワークフロー / Messages API）の概要
話題の「Mythos」など、今後の見通し

まず結論（要点だけ）

Opus 4.8は 「ベンチも上がったけど、それ以上に"嘘をつきにくくなった"」 モデルです。Anthropic自身も 「穏当だが、体感できる改善」 と表現しています。

項目	ひとことで
主役	「正直さ」。自信のないところを申告し、コード欠陥の見逃しは前世代比約1/4
新機能	effort 選択・ダイナミックワークフロー・Messages API更新

今の時点で「お、いいやん」と思ったのは、中身だけ良くなっている点です。

Claude Opus 4.8とは

公開日：日本時間 2026年5月29日（米国時間 5月28日）に全世界で提供開始
位置づけ：Anthropicのフラッグシップ「Opus」系の最新版
高速(fast)モードも用意されていて、同じモデルを約2.5倍のスピードで動かせます。しかも以前のfastモードと比べて 3分の1の価格になり、速度が欲しい場面のハードルがかなり下がりました。

正直さについて

ここが今回の本題で、公式が最も目立つ改善点として挙げているところです。

実務で使っていると、たまに 根拠が薄いのに「できました！」と自信満々に言ってくる問題があります。「いや、それほんまにできてる？」と二度見したこと、ありませんか。Opus 4.8は、以下の部分が改善されたと説明されています。

自分の作業に 「ここは自信がない」と不確実性を申告しやすくなった
裏付けのない主張をしにくくなった
自分が書いたコードの欠陥を見逃さず指摘する確率が、前世代比でおよそ4分の1に
…と、ここまでが公式やメディアの言い分です。

ほんまかよと思っている自分もいます(小声)

新機能ざっくり3つ

① effort（努力）選択

claudeのモデル選択欄の横に、「Claudeがどれだけ考える(effort)か」を選ぶコントロールが追加されました。Claude Code には以前から effort（/effort、5段階）が存在していて、今回それが claude（＝Web・デスクトップアプリ・モバイル）でも選べるようになった、というのが新しい点です。

effort	Claude Code表記	こんな時に
low	low	サクッと答えが欲しい / レート制限を節約したい
medium	medium	コスト重視で、品質を多少譲ってもいい
high ※デフォ	high	普段使い。品質と速さのバランス型
extra	xhigh	難しいタスク・長時間まわす作業（公式の推奨。※4.7ではClaude Codeのデフォルトだった）
max	max	品質最優先。ただし考えすぎ(overthinking)になることも

claudeは high がデフォで、low〜max から選べます。表記は環境で少し違い、claudeの「extra」が Claude Code の「xhigh」に当たります。Claude Code も 4.8 ではデフォルトが highで、xhigh がデフォルトだったのは前世代の 4.7 です。

ポイントは、4.8のデフォルトの「high」が、コーディングでは4.7のデフォルト（Claude Code では xhigh）とほぼ同じトークン量のまま性能が上がっていること。表のとおり max は考えすぎ(overthinking)もあるので、“一番上が最強”とは限らないです。

②ダイナミックワークフロー（Claude Code向け）

Claude Codeが 大きなタスクを自分で計画し、数百のサブエージェントを並列実行してから自己検証してくれる機能です。公式例は **「数十万行規模のコードベース移行を、着手からマージまで」**といったものでした。

↑ 実行中の画面だそうです。大きなタスクを複数フェーズに分け、各フェーズで複数のサブエージェント（すべて Opus 4.8・1M context）が並列にファイルを処理してます。各エージェントのトークン量やツール呼び出し数まで可視化されます。
出典：Introducing dynamic workflows in Claude Code（Anthropic公式）

③Messages APIの更新（開発者向け）

これは開発者向けの変更です。公式によると、Messages API のメッセージ配列の中に system エントリを置けるようになったそうです。

ねらいは「タスクの途中で指示を差し替えやすくする」ことです。従来は途中で指示を変えるのにユーザー側の発言（user ターン）を挟む必要があり、それがプロンプトキャッシュを壊す一因にもなっていました。今回の更新では、ユーザーターンを経由せず・キャッシュを壊さずに、稼働中のClaudeへ指示を更新できるとされています。公式が挙げている使いどころは、エージェントを動かしている最中に 権限・トークン予算・環境（コンテキスト）情報 を差し替える、といったケースです。
（出典：Anthropic公式ブログ「Introducing Claude Opus 4.8」）

ベンチマークについて

SWE-Bench Pro（コーディング系）：69.2%（Opus 4.7の64.3%から改善）
コンピュータ操作・ブラウザ操作系でも、テスター環境で前世代やGPT-5.5を上回るスコアが報告

出典：Anthropic公式ブログ「Introducing Claude Opus 4.8」より引用

「めちゃくちゃ跳ねた！」というより 着実に上積みされた印象です。公式ブログに寄せられたテスターのコメントでも、Cursor はツール呼び出しが効率化して同じ知能でも手数（ステップ）が減ったと述べ、Cognitionは4.7で気になっていたコメントの冗長さやツール呼び出しの問題が直ったと述べています。全体として、地に足のついた声が多めでした。

今後の見通し

Anthropicは次の2つを予告してました。

Opusと同等の能力を、より低コストで提供するモデルの開発
Opusを上回る知能を持つ新クラス「Mythos」の投入（今後数週間で全顧客に提供予定）

「今後数週間で」というのは、公式ブログの次の一節が根拠です。

「…bring Mythos-class models to all our customers in the coming weeks.」
（…Mythosクラスのモデルを、今後数週間で全顧客に提供できる見込み）
── Introducing Claude Opus 4.8 より

現在話題のMythosは、Project Glasswing の一環で一部の組織がサイバーセキュリティ用途に「Claude Mythos Preview」を利用中で、一般提供にはより強力なサイバー安全策の整備が必要、とされています。

公式は、数週間でと言ってるけど「どうせ遅いんやろな〜」、「なんだかんだ揉めそう」と思いつつ、「どんだけすごいんやろか」と楽しみな自分もいます。

※「Project Glasswing（プロジェクト・グラスウィング）」とは、Anthropic社が主導する業界横断型のサイバーセキュリティ・イニシアチブです。Apple、Google、Microsoftなど世界的大手が参加し、同社の次世代AIモデル「Claude Mythos Preview」を活用して重要インフラやOSSの脆弱性を先回りして検出・修正することを目指しています。

まとめ

出たてほやほやのClaude Opus 4.8を整理してみました。

主役は 「正直さ」。自分のミスや不確実なところを申告しやすくなった
新機能は effort 選択・ダイナミックワークフロー・API更新 の3本立て
高速(fast)モードは 2.5倍速・3分の1価格で使える
次は より安いOpus級 と、さらに上の Mythosクラス が控えている

「ちょっとした進化」ではありますが、AIが"正直になる"方向に振ってきたのガンガン試して実感したいと思います。サクッとキャッチアップしたい人向けに整理しました。

参考

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up