XでSonnet 4.6が刺さっている理由
正直、今回のSonnet 4.6はかなり大きいです。
単なるマイナー更新じゃなくて、毎日使う標準モデルの格が上がった感じがある。2026年2月17日に出たSonnet 4.6は、コーディング、Computer Use、長文コンテキスト推論、エージェント計画までまとめて底上げされていて、しかも価格はSonnet 4.5と同じです。1Mトークンのコンテキストもベータで使えます。 > Sonnetでここまで来るのか、という驚きが今回の本質だと思う。
ここが重要で、今までの感覚だと「普段はSonnet、難所はOpus」という切り分けがかなり自然でした。ところが今回は、その線引きが少し崩れています。 Codeの初期テストでは、ユーザーがSonnet 4.6をSonnet 4.5より約70%の割合で好み、Opus 4.5よりも59%の割合で好んだとされています。長いセッションでの読み違い、重複実装、雑な成功宣言が減ったという評価まで出ています。
何が変わったのか
まず分かりやすいのは、コード生成だけでなく、コードベース全体を読む力がかなり強くなったことです。公式の説明でも、1Mトークンはコードベース全体や長い契約書、複数の論文を一度に持てる規模だとされています。AI駆動開発で詰まりやすいのは、単発の関数生成より「前後関係の理解」なので、ここが伸びると体感が一気に変わります。
数字で見ても、SWE-bench Verifiedは79.6%、OSWorld-Verifiedは72.5%です。前者は実際のソフトウェア修正に近い課題、後者は画面を見ながらPC操作を進める能力を見る指標です。特にOSWorldはOpus 4.6の72.7%とかなり近くて、Computer Use系でもSonnetがかなり実戦的になってきたのが分かります。 ただ、全部で首位という話ではないです。Terminal-BenchやARC-AGI-2ではOpus 4.6が上ですし、GPQA DiamondやHLE with toolsではGPT-5.2系が強いところもある。Gemini 3 Proが上の項目もあります。つまり、Sonnet 4.6の本当の価値は「全ベンチ最強」ではなく、価格に対して出せる実務性能がかなり高いところにあります。
AI駆動開発の現場で何が起きるか
個人的には、CursorやClaude CodeやGitHub Copilotをどう使い分けるか、その感覚が変わると思っています。
これまでは「速くて安いモデルで下書き、重いモデルで仕上げ」という段階分けがわりと明確でした。でもSonnet 4.6くらいになると、普段の実装、レビュー、調査、軽い設計修正くらいはSonnetで押し切れる場面がかなり増えるはずです。これは、公式がClaude Code内でのユーザー選好や、Cursor、GitHub、Rakutenなどの初期評価を並べている流れとも合っています。
特にいいのは、フロントエンドや大規模コードベースの文脈で「ちょっと気が利く」方向に進んでいることです。単に正解率が数ポイント伸びたというより、レイアウトや設計のまとまり、指示追従、長い作業での安定感が改善している。ここって、実務だと地味に一番効く部分なんですよね。
速いか賢いか、ではなく、安くて実務に耐えるかが勝負になってきた。
技術スタック選定の見方も少し変わる
AIを前提にプロダクトを作るなら、これからはモデル単体の性能表よりも、どの価格帯で、どのくらい長く、どのくらい安定して走るかがますます大事になると思います。Sonnet 4.6は入出力が1Mトークンあたり3ドルと15ドルで、Sonnet 4.5と同じです。Opus級の仕事を全部置き換えるわけではないけれど、日常の大半をここで回せるなら、個人開発やスタートアップの速度はかなり上がります。 しかもSonnet 4.6は、claude.aiとClaude Coworkではデフォルトになっていて、 Code、API、主要クラウドでも使えます。つまり「一部の検証勢だけが触れる尖ったモデル」ではなく、そのまま運用に入れやすい位置にいる。ここは地味だけど強いです。
最後に本音を言うと、今回の変化で人間の仕事が消えるというより、人間が責任を持つ場所がもっと上流に寄る感じがしています。実装そのものより、どの文脈を渡すか、どこまで任せるか、どう検証するか。その設計ができる人はさらに強くなるし、逆にそこを考えないと、ただAIに投げるだけの人で終わる。Sonnet 4.6の価値は、モデルの名前以上に、そこを現実にしたところにあるんじゃないかなと思います。