2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

claude opus4.7が登場したので自分用まとめ

2
Posted at

TL;DR

  • 2026年4月16日にClaude Opus 4.7がGA。モデルIDはclaude-opus-4-7
  • 価格は据え置き($5 / $25 per MTok)、コンテキストウィンドウも1Mトークン据え置き
  • 新機能: xhigh effort、task budgets(public beta)、/ultrareviewコマンド、高解像度ビジョン
  • 既存プロンプトは「過剰な足場」を外した方が性能が出る方向に変わっている
  • トークナイザー更新で同じ入力でも1.0〜1.35倍のトークンを消費するため、コスト再試算が必要

本記事はOpus 4.7で増えた機能・変わった挙動・今後の開発スタイルで変えた方が良さそうな点を整理する。


1. 新しく増えた機能・特徴

1.1 xhigh effort level

highmaxの間に新しい推論強度が追加された。Anthropic公式は「コーディングとエージェント用途ではhighxhighから始めるべき」と推奨している。Claude Codeでは、初回Opus 4.7起動時に自動でxhighが適用される仕様。

Anthropicのベンチマークでは、xhighの100kトークン消費時点で、Opus 4.6のmax(200kトークン)を超えるスコアを出している。つまり同じ認知予算でより深く考える設計になった。

1.2 task budgets(public beta)

単一ターンではなく、エージェントループ全体に対してトークン予算の上限を設定できる仕組み。

# Claude Code内での使用例
/config task_budget 50000

予算に近づくとモデルは停止してユーザーに確認を求める。従来のmax_tokensが「1ターンの上限」だったのに対し、task budgetsは「タスク全体の上限」。暴走防止のガードレールとして機能する。

1.3 /ultrareviewコマンド(Claude Code)

変更差分を読み込み、慎重なレビュアーが見つけるような問題をフラグする専用レビューセッション。実態は「クラウドで複数のサブエージェントが並列にコードを調べ、別レイヤーで検証する」マルチエージェント型レビューシステム。

  • デフォルトで5エージェント、最大20まで対応(Enterprise想定)
  • 信頼度スコア8/10以上の問題のみ報告する厳格なfalse-positiveフィルタ
  • Pro/Maxは請求サイクルごとに3回まで無料。以降は通常のOpus 4.7レートでトークン消費
/ultrareview 123    # 特定PRのレビュー
/ultrareview         # 現在のブランチをレビュー

1.4 高解像度ビジョン

画像の最大解像度が1.15MP(1,568px)から3.75MP(2,576px)へ約3倍に拡大。コンピュータユースの視覚精度は98.5%まで改善。回路図、UML、設計モックアップ、スクリーンショットが実用解像度で読めるようになった。

1.5 ファイルシステムベースのメモリ強化

長時間・複数セッションにまたがる作業で、モデルが重要なメモをファイルに書き出して参照する能力が向上。次のタスクに移る際、前提コンテキストを毎回大量投入する必要が減った。

1.6 セルフ検証能力

Opus 4.7の最大の特徴は「報告前に自分の出力を検証する手段を考案する」こと。内部テストではRustでTTSエンジンを書いた後、自分で生成した音声を別の音声認識器に通してPython実装と突き合わせる、といった自律的な検証を実行した例が報告されている。

1.7 auto modeのMaxプラン拡張

従来Teams/Enterprise/API限定だったauto mode(多段階実行で都度許可を求めない運用モード)がMaxプランでも利用可能になった。


2. 前から変わったこと(破壊的変更と挙動変化)

2.1 API破壊的変更

  • Prefill削除: Assistantメッセージのprefillは400エラー。structured outputsまたはsystem prompt指示に移行する必要あり
  • サンプリングパラメータ削除: temperaturetop_ptop_kは使用不可。プロンプトで挙動を制御する方式へ
  • extended thinking budgets廃止: thinking: {type: "enabled"}budget_tokensは非推奨。adaptive thinkingとeffortパラメータに統一
  • thinking内容のデフォルト非表示: thinkingブロックは空で返る。"display": "summarized"でオプトインする形式に

2.2 挙動の変化(プロンプト調整が必要になりうる点)

  • 指示の文字通り解釈が強化: 1項目に対する指示を他項目に暗黙に一般化しなくなった
  • 応答長が複雑さに応じて変動: 従来の固定verbosityから、タスク複雑度に応じたスケールへ
  • デフォルトでツール呼び出しが減る: 行動より推論を優先。ツールを多用させたい場合はeffortを上げる
  • トーンがより直接的・断定的に: 絵文字や共感表現が減り、意見を持った応答が増える
  • デフォルトで生成されるサブエージェントが減少

2.3 トークナイザー変更

同じ入力テキストでも、コンテンツタイプによって1.0〜1.35倍のトークンを消費する。価格は据え置きでも、実効コストは最大35%増える可能性がある。/v1/messages/count_tokensで自分のワークロードへの影響を測定すべき。

2.4 高effortでの思考量増加

高effortレベルではより多く考える設計になった。特にエージェント用途の後半ターンで顕著。難問への信頼性は上がるが、出力トークン数は増える。


3. エンジニアとして開発方法を見直したい点

3.1 プロンプトから「過剰な足場」を外す

Opus 4.6時代、モデルの挙動を矯正するために書いていた以下のような指示は、Opus 4.7では不要になっている可能性が高い。

  • 「ステップバイステップで進めてください」
  • 「進捗を都度報告してください」
  • 「実装前にプランを立ててから進めてください」
  • 「出力を再チェックしてください」

Opus 4.7はこれらのパターンをネイティブに処理するため、既存プロンプトからまず足場を外して挙動を確認し、必要な分だけ戻すアプローチが良さそう。過剰な指示は「指示の文字通り解釈」と相性が悪く、むしろ悪化するリスクすらある。

3.2 CLAUDE.md / プロンプトの再点検

指示の文字通り解釈が強まったため、曖昧な指示や「なんとなく汲み取って」的な書き方は誤読される可能性が上がった。CLAUDE.mdやシステムプロンプトは以下の観点で見直すと良さそう。

  • 暗黙の前提を明文化する
  • 「例外時の挙動」を明記する(触らない条件、停止する条件、確認を求める条件)
  • 過剰なネガティブ指示(「〜しないでください」の羅列)を、ポジティブな例示に置き換える

3.3 harnessやエージェント設計における認知リソース配分

task budgetsの登場で、フェーズごとの認知リソース配分を明示的に設計できるようになった。以下の配分が基本形として有効だと考えている。

  • 設計・プランニングフェーズ: 予算多め + xhigh effort(ここで誤ると下流が全部汚染される)
  • 実装フェーズ: 予算少なめ + mediumhigh effort(planに忠実に実装させる)
  • レビューフェーズ: 予算多め + xhigh effort(浅いレビューは意味がない)

特にPlanner→Generator→Evaluatorのような構成では、Evaluator部分に/ultrareview相当の「発見と検証の分離」を組み込むと、false positiveが減らせる。

レビュー層を2段構えに分ける

レビューフェーズ自体も、性質の異なる2層に分離するとさらに効率が上がる。

  • Layer 1: plan準拠チェック(effort低め・予算少なめ)
    • 実装がplanの指示通りに行われているかを機械的に照合
    • 触るべきでないファイルに変更が入っていないか、想定外のAPIが追加されていないか、等
    • 深い推論は不要なのでlowmedium effortで十分
  • Layer 2: 深いレビュー(effort高め・予算多め)
    • 論理的欠陥、エッジケース、セキュリティ、パフォーマンス、命名・設計の妥当性
    • xhigh effortで、planに書かれていない観点も含めて吟味させる
    • /ultrareview相当のマルチエージェント並列レビューもこの層で使う

1層目を先に通すことで、planからの逸脱という「単純だが致命的な問題」を早期に弾ける。2層目に到達するコードは既にplan準拠が保証されているので、レビュアーは設計・品質の観点に集中できる。これはCI/CDでlintと型チェックをユニットテストの前段に置くのと同じ思想で、軽い検査で落とせるものは軽く落とし、重い検査の対象を絞り込むアプローチになる。

この2層構成は、Opus 4.7のeffort粒度とtask budgetsが組み合わさって初めて実用的になる設計と言える。単一レビューで全部やらせると、plan準拠チェック程度の軽い判定にもxhigh相当のトークンが消費されるため、コスト効率が悪い。

3.4 planをOpusで作り、実装をSonnetに任せるハイブリッド運用

Opus 4.7はplan立案時の推論が深くなった分、「高品質なplanをOpusで作り、実装を安価なモデルに任せる」というハイブリッド運用の効果が一段上がっている。Claude Codeにはopusplanというエイリアスが用意されており、まさにこのパターンを自動化してくれる。

  • plan mode: 複雑な推論とアーキテクチャ判断にopusを使う
  • execution mode: コード生成・実装はsonnetに自動で切り替わる

設定は/model opusplanで有効化できる。思考コストが重いplanフェーズだけOpus 4.7のxhighで走らせ、ルーチン的な実装はSonnet 4.6で捌く構成になるため、品質とコストのバランスが取りやすい。

有効なユースケースの例:

  • 大規模リファクタリング: 影響範囲の洗い出しと段取りはOpus、各ファイルの実際の書き換えはSonnet
  • 新機能の設計〜実装: アーキテクチャ決定とインターフェース設計はOpus、実装はSonnet
  • フレームワーク移行: 依存関係の解析と移行順序の立案はOpus、機械的な置き換えはSonnet
  • 仕様書からのスキャフォールド生成: 設計の解釈と分割はOpus、ボイラープレート生成はSonnet

さらにtask budgetsと組み合わせると、ループ全体の予算設計まで可能になる。opusplan + task budgets + xhighの組み合わせは、Opus 4.7世代で初めて成立する運用パターンと言える。

opusplanを使わずに手動で切り替える場合も、以下のような使い分けが有効。

  • planだけOpus 4.7で作成 →plan.mdに永続化 → Sonnetに実装させる
  • ArchitectとExecutorをCLAUDE.mdで役割分担させ、モデルも分ける
  • 一人harness構成でPlannerのみOpus、Generator/EvaluatorはSonnetで回す

3.5 plan結果をファイルに永続化する運用

ファイルシステムベースのメモリが改善されたので、planをplan.mdのようなファイルに明示的に吐き出させ、実装フェーズで参照させる運用が有効になる。セッションが分かれても文脈が引き継がれやすく、Ralph Loop的なパターンとの相性も良い。

3.6 /ultrareviewの使いどころを切り分ける

/ultrareviewはクラウド実行型のマルチエージェントレビューである点を踏まえ、扱うコードの性質で使い分ける必要がある。

  • 有効な場面: OSS、公開予定のコード、複数観点のチェックが必要な変更
  • 要検討の場面: 機密度の高いコード、第三者サービスでの処理が制限されているコード

Anthropicの隔離VMで動作しセッション後に破棄される設計になっており、学習への利用もConsumer Termsではオプトインしない限り発生しない。それでも扱うコードのポリシー次第で使い分けは必要になる。

3.7 トークンコストの再試算

トークナイザー変更で実効コストが増える可能性があるので、以下を必ず実施する。

  • 本番に投入する前にcount_tokens APIで典型的なプロンプトを測定
  • max_tokensにヘッドルームを追加(コンパクション発動の閾値も含め)
  • task budgetsを活用してループ全体のコスト上限を設定

3.8 マイグレーションの自動化

Claude Codeには/claude-api migrateコマンドが用意されており、モデルIDの切り替え、破壊的変更の対応、prefillの置き換え、effortのキャリブレーションを一括で処理してくれる。

/claude-api migrate this project to claude-opus-4-7

既存プロジェクトがある場合はまずこれを実行し、変更サマリーを確認してからデプロイするのが効率的。


4. 結論

Opus 4.7は「モデルが賢くなった」というより「モデルに任せられる範囲が広がった」アップデートと捉えている。従来プロンプトやharnessで補っていた挙動がモデル側でカバーされるようになり、逆に過剰な足場は害になる可能性が出てきた。

当面は以下の順で検証を進めるのが良さそうだ。

  1. 既存プロンプトから「ステップ指示」「進捗報告指示」「自己チェック指示」を外してA/B検証
  2. harness構成を「task budgetsでフェーズ別予算配分」する設計に変更
  3. /ultrareviewと自作レビューharnessの比較実験
  4. opusplanによるplan/実装モデル使い分けの効果検証

Opus 4.7は小さくない変更を含むので、「モデルIDを書き換えるだけ」で済ませず、ワークフロー全体を棚卸しするきっかけにすると良さそうだ。


参考リンク

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?