Claude Opus 4.7 の3つの強化点と2つの新機能を公開情報から整理する

Posted at 2026-05-24

本記事は Claude Code(Anthropic)を活用して執筆しています。
検証可能な範囲で公開情報を整理したものですが、
コード例等は実環境での動作確認をおすすめします。

SWE-bench Verified で 87.6%。Claude Opus 4.7 が 2026 年 4 月 16 日に公開された際に示したベンチマーク数値だ。

前モデル（Opus 4.6）の 80.8% から約 7 ポイントの向上は、数字の幅より意味が大きい。「自力で修正できなかったコードが修正できるようになる」境界線を引き上げた形になる。

この記事では、Anthropic の公式発表と API ドキュメントをもとに、Opus 4.7 の変更点を整理する。コーディング・ビジョン・エージェント精度の 3 つの強化点と、タスクバジェット・xhigh という 2 つの新機能が中心だ。

コーディング性能が実用ラインに近づいた

SWE-bench のスコアを並べると変化の大きさが分かる。

ベンチマーク	Opus 4.6	Opus 4.7	GPT-5.4
SWE-bench Verified	80.8%	87.6%	82.4%
SWE-bench Pro	53.4%	64.3%	57.7%

SWE-bench Pro は実際の GitHub リポジトリ上の難しいバグ修正タスクで、補完精度とは異なるコード理解力が問われる。Opus 4.7 は GPT-5.4（57.7%）と Gemini 3.1 Pro（54.2%）を上回り、コーディングエージェント分野で現時点の優位性を示している。

Anthropic の内部テストでは、マルチステップのコーディングワークフロー中に「タスクを途中放棄する」比率が Opus 4.6 比で約 60% 減少したとされる。ツールエラーも約 1/3 に減っており、長時間の自律コーディングでより信頼できる挙動になった。

Opus 4.7 は Claude モデルシリーズ初の高解像度画像サポートを実装した。

解像度向上が直接効くのは、大判スクリーンショットの解析、高密度な図表の読み取り、UI 操作エージェントといった用途だ。以前は解像度の壁で難しかった操作が通るようになる可能性がある。

MCP-Atlas（マルチサーバー MCP 環境でのツール呼び出し評価）では 75.8% → 77.3% に改善。GPT-5.4（68.1%）や Gemini 3.1 Pro（73.9%）をリードしている。

マルチステップの推論精度も 14% 改善した。内部テストを総合すると、「数時間にわたる自律作業でも一貫性を保てる」方向への強化が中心と見える。

タスクバジェットは、エージェントループ全体（思考・ツール呼び出し・ツール結果・最終出力）で消費するトークン数の目標値を Claude に渡す機能だ（公式ドキュメント）。

Claude 側はカウントダウンを見ながら作業の優先度を調整し、バジェット内で完了しようとする。設計の意図は「途中で打ち切るのではなく、バジェット内で graceful に終わらせる」動作を促す点にある。

これにより「何トークン使うかわからない」という長時間エージェント実行の不確定性に対して、一定のコントロールが効くようになる。コスト上限を意識して自律タスクを設計する場面で実用的な機能だ。

Opus 4.7 では思考（Extended Thinking）のエフォートレベルに xhigh（エクストラハイ）が追加された（Effort API ドキュメント）。

xhigh は high より深い推論を行いつつ max より安く抑えられる中間ポジション。Anthropic のデータでは、xhigh が複雑なコーディングタスクで約 75% のスコアを達成するとされる。

Claude Code では /effort xhigh コマンドでセッション途中でも変更できる（Claude Code ベストプラクティス）。Opus 4.7 公開時点で、手動でエフォートを設定していなかったユーザーは自動的に xhigh に移行したとされている。

料金は Opus 4.6 と同一。入力 $5/M トークン、出力 $25/M トークンで据え置きだ。

ただし xhigh でのエージェント実行はトークン消費が high 比でおよそ 2 倍になるという報告がある。長時間セッションでは用途に応じたエフォート切り替えが現実的で、Anthropic もセッション途中での切り替えを推奨している。

また「Opus 4.7 は 4.6 のドロップイン置き換えではない」という指摘がコミュニティにある。タスクバジェットや xhigh の追加で挙動が変化している面があり、既存のエージェントパイプラインに組み込む際はテストを経ることが望ましい。

適材適所の観点では、長時間の自律コーディングやコンピューターユースには Opus 4.7 が向いており、単純な補完や短い QA タスクは Sonnet 4.6 の方がコスパが良い場面も多い。

Opus 4.7 の強化は「長時間・自律的なコーディング」用途への集中が際立っている。SWE-bench スコアの向上、タスク放棄率 60% 減、ツールエラー 1/3 減と、いずれも「エージェントを信頼して任せられる時間を延ばす」方向の改善だ。

どの場面に効くかの詳細は Anthropic のベストプラクティスに詳しい。まず /effort xhigh に切り替えてみることが、体感で違いを掴む最短ルートになりそうだ。