2025年9月30日、Anthropic社が新たに発表した「Claude Sonnet 4.5」は、コーディング分野、AIエージェント構築、推論・数学の全領域で現時点最高性能を誇るAIモデルです。
1. モデルの主要特長
-
世界最高水準のコーディング能力
SWE-bench Verified(大規模実務ソフトウェア評価)でトップ性能。複雑な長時間タスク(30時間超にも及ぶ集中力保持)でも高い能力を発揮! -
リアルなPC利用ベンチマークの向上
OSWorldベンチマークで、Sonnet 4の42.2%を遥かに超える 61.4% のスコアに到達。4か月間で飛躍的な伸び。 -
推論・数学性能の向上
他分野の評価でも著しく進歩。金融・法務・医療・STEMの専門家によるフィードバックも高評価。
2. 新機能・アップグレード
-
Claude Codeの強化
- チェックポイント機能(進捗保存/ロールバック)
- ターミナルインターフェース刷新
- VS Codeネイティブ拡張
-
APIの強化
- 新たに「コンテキスト編集」「メモリーツール」搭載。超長時間・複雑タスクに対応。
- 新たに「コンテキスト編集」「メモリーツール」搭載。超長時間・複雑タスクに対応。
-
アプリ/会話機能
- 会話中に直接コード実行・新規ファイル生成(スプレッドシート、スライド、文書)
- 会話中に直接コード実行・新規ファイル生成(スプレッドシート、スライド、文書)
-
Chrome拡張
Maxプラン利用者に配布
-
Claude Agent SDK
AIエージェント開発基盤を一般公開。長時間メモリ管理・権限制御など、実運用可能なエージェント開発が可能。
3. ベンチマーク
- SWE-bench Verified
-
・77.2%(10回試行平均・200K思考予算/500問)
・モデルはbashやファイル編集を頻繁に使い、1問あたり100回以上ツール利用推奨プロンプトで評価されている
・パラレルテスト(複数案同時実行と最適案の選定)や独自テスト導入により複雑タスクへの対応力が向上
・1Mコンテキスト型では78.2%、高負荷並列時は82.0%
・GitHub実案件での修正率はGPT-5 Codex(74.5%)を上回る
・Terminal-Bench(コマンドライン自動化タスク)で50.0%を記録(Opus 4.1は46.5%、GPT-5は43.8%)
・PythonやJavaScriptなど複数言語に秀で、最大30時間以上の長時間・複雑タスクにも十分な集中力を維持できる事例が確認されている
- OSWorld
-
・61.4%(Sonnet 4は42.2%)
・ブラウザ操作・シート入力・サイトナビゲーション等の実際のデスクトップ/Web業務タスク環境でのAI能力を評価しており、現状最高値
・Opus 4.1は44.4%、Sonnet 4は42.2%(4か月で大幅向上)
・サブタスクで小売86.2%、航空70.0%、通信98.0%などの結果も示され、「複数ステップの実業務手順でも人間に迫る性能」と現場開発者から高評価を受けている
- その他分野も実力向上
-
・編集タスクのエラー率はSonnet 4の9%から0%へ改善
・Devinエージェントでプランニング性能が18%向上、総合評価スコアは12%アップ
・AIME 2025(高校数学)ではPythonツール利用で100%(非ツールモードで87%)
・GPQA Diamond(大学院レベル推論)で83.4%(GPT-5は85.7%、Gemini 2.5 Proは86.4%)
・MMMLU(多言語QA)で89.1%、MMMU(ビジュアル推論)で77.8%
・Finance Agent(金融分析)では55.3%(GPT-5は46.9%、Gemini 2.5 Proは29.4%)を記録
・長期シナリオと複数エージェント協働にも進化が見られ、コンテキスト200K〜最大1Mトークンに対応
・安全性・アライメントテストでも高評価(ASL-3対応)、誤検知率はSonnet 4比で1/10まで削減されている
4. 安全性・整合性
-
最も整合性の高いモデルとして登場
- 有害行動(ごますり・欺瞞・権力志向・妄想助長など)大幅低減
- ASL-3(AI安全レベル3)で管理。分類器(フィルター)による危険入出力防止措置を強化
- 誤検知(false positives)率はSonnet 4以降で10分の1、さらに2分の1まで低減
5. Claude Agent SDK 一般公開
- 6か月以上の実運用で検証済みエージェント開発基盤を無償提供
- 長期記憶管理、権限システム、サブエージェント協調などの課題を解決
6. 価格と体験プレビュー
-
無料プランで使用可能
Claude Sonnet 4.5はClaude.aiで誰でも無料で利用が可能。アカウントを登録し、無料プランを選択してからすぐに利用開始できます。
ただし無料プラン特有の利用制限があるため、制限を超えると下のバージョンに自動でダウングレードされます。 -
Imagine with Claude
Sonnet 4.5発表と同時に提供された研究プレビュー機能。Maxプラン利用者向け限定で、発表日から5日間のみ公式ページ(claude.ai/imagine)でアクセス・体験可能です。
体験手順は以下の通りです。- Maxプランでログインし、指定URLへアクセス
- チャット欄に「アプリを作って」等の指示を入力
- Claudeがコード、UI、アプリのプロトタイプを即時生成し、その場で確認・編集可能
通常チャットと違い、サイドバーUIやリアルタイムページ遷移など複雑な開発プロセスを数分で体感できます。
※利用期間終了後はアクセス不可。
-
価格
Claude Sonnet 4.5のAPI利用料金は、従来と同じく入力100万トークンあたり3ドル/出力100万トークンあたり15ドルです。
20万トークンまでの標準ウィンドウでこの料金が適用されます。
20万トークン超の場合は階層料金- 入力:100万トークンあたり6ドル
- 出力:100万トークンあたり22.5ドル
※プロンプトキャッシュ利用料など付帯料金もあり
Claude ProやMaxプラン(月16,500円〜33,000円相当のコース)も用意されており、上限や優先実行枠など特典が異なります。
用途や体験パターンに応じてAPIかWebサービスかを選択でき、料金体系もシンプルかつ大規模開発にも対応しています。
出典:Anthropic公式ニュースリリース「Introducing Claude Sonnet 4.5」より