またいいのがやってきた!
Anthropic がモデルをアップデートするたびに「また来たか」くらいの温度感で見てたんですが、Sonnet 4.6 に関しては正直ちょっと驚いています。
使い始めて数時間で、「あ、これもう前のバージョンに戻れないやつだ」 と思いました。何が変わったのかを、自分の体験ベースで書き残しておきます。
コーディングの「ズレ」がほぼなくなった
一番実感したのがここです。
以前のモデルでよくあったのが、「既存コードをちゃんと読まずに似たようなロジックを別の場所にまた書いちゃう」という現象。DRY 原則とか以前に、同じ関数が2個できるんですよね。あと「要件に書いてないのに勝手に抽象化してくれて、かえってわかりにくくなる」みたいなことも。
Sonnet 4.6 はこのあたりがかなり改善されていて、修正前にちゃんとコードベース全体を把握してから書いてくれる感じがします。指示に対して「素直」になった、というのが正確な表現かもしれません。過剰な気遣い(?)で余計なものを追加してくることが減りました。
Anthropic 側の評価でも、Claude Code 上でのユーザー比較テストで Sonnet 4.6 が Sonnet 4.5 に約 70% の割合で支持されたという数字が出ています。個人的な感覚とも一致しています。
Computer Use が「実験的」じゃなくなってきた
Computer Use、最初に触ったとき(2024年末ごろ)は「面白いけど実務では使えないな」という印象でした。クリック位置がズレる、途中で止まる、同じ操作をループするなど、デモとして見せられるものではなかった。
Sonnet 4.6 で久しぶりにちゃんと触ってみて、だいぶ変わりました。
OSWorld というベンチマーク(Chrome、LibreOffice、VS Code などの実際のアプリを操作させてタスク達成率を測る)での推移がこれです:
| モデル | OSWorldスコア |
|---|---|
| Sonnet 3.5(2024年10月) | 14.9% |
| Sonnet 3.7(2025年2月) | 28.0% |
| Sonnet 4(2025年6月) | 42.2% |
| Sonnet 4.5(2025年10月) | 61.4% |
| Sonnet 4.6(2026年2月) | 72.5% |
16ヶ月で約5倍。この伸びは異常です。
実際に使ってみると、複数タブを行き来しながらフォームを入力するとか、スプレッドシートの特定セルを探してコピペするとか、「人間がやったら5分かかる面倒な作業」がかなりスムーズに動くようになっています。API が存在しないレガシーなシステム(社内ポータルとか、古い管理画面とか)の自動化に使えるかもしれない、と本気で考え始めています。
1M トークンのコンテキストは想像以上に便利
Sonnet 4.6 は 100万トークン(ベータ)のコンテキストウィンドウを持っています。
正直、最初は「そんなに詰め込むことある?」と思っていました。でも使ってみると発想が変わりました。
大きなリポジトリを丸ごと渡して「このバグの原因ってどこにある?」と聞けるし、会議の文字起こしが50本あっても「3ヶ月間の議論をまとめて」と投げられる。RAG を組まなくてもドキュメント全体を文脈として持たせられるので、パイプラインのシンプルさが全然違います。
OfficeQA というエンタープライズ向けの文書理解ベンチマークでは Opus と同等のスコアを出しているので、長文処理の能力は確かです。
もう一個:Context Compaction
エージェントを長期セッションで走らせると、途中でコンテキストが溢れて文脈が壊れる、というのは開発者なら誰でも経験したことがあると思います。
Sonnet 4.6 ではコンテキスト圧縮機能(ベータ)が入っていて、長いセッションでも会話の流れを保ちやすくなっています。エージェント系のプロダクトを作っている人には刺さる機能だと思います。
ベンチマークで見ると何がわかるか
自分の体験感だけだとバイアスがかかるので、数字も貼っておきます。
| ベンチマーク | Sonnet 4.6 | Opus 4.6 |
|---|---|---|
| OSWorld(コンピュータ操作) | 72.5% | — |
| GPQA Diamond(大学院レベル推論) | 89.9% | 91.3% |
| ARC-AGI-2(新規問題解決) | 58.3% | 68.8% |
| Terminal-Bench 2.0(端末コーディング) | 59.1% | 65.4% |
GPQA Diamond(大学院レベルの科学推論)で 89.9% というのは、個人的には驚いた数字です。最上位モデルとの差がわずか 1.4 ポイントしかない。
結局、何が変わるの?
まとめると、Sonnet 4.6 によって自分の開発スタイルで変わったことは:
Claude Code での作業がストレス減る。長いセッションで「途中で違うものを作り始める」が明らかに減る。
エージェント設計の選択肢が広がった。これまで上位モデルを使わないと品質が出なかったタスクを、Sonnet で任せられるケースが増えた。
Computer Use が選択肢に入ってきた。今年中に何か一つプロジェクトで使うと思います。
ドキュメント処理パイプラインがシンプルになった。大量テキストを RAG で分割しなくても、そのまま投げられるケースが増えた。
おわりに
正直、モデルの世代交代のたびに「今回はどうせ誤差でしょ」と思っていたんですが、Sonnet 4.6 はその感覚を改めさせてくれました。
AIの進化って、まだ止まってないんだなというのが率直な感想です。
まだ触っていない方は、claude.ai(Sonnet 4.6 がデフォルトになっています)か、API で claude-sonnet-4-6 を指定してみてください。何か変わった感覚があれば、ぜひコメントで教えてください。