1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Claude Sonnet 4.5が登場! 公式情報をまとめてみた

Last updated at Posted at 2025-10-01

2025年9月30日、Anthropic社が新たに発表した「Claude Sonnet 4.5」は、コーディング分野、AIエージェント構築、推論・数学の全領域で現時点最高性能を誇るAIモデルです。

1. モデルの主要特長

スクリーンショット 2025-10-01 111015.png

  • 世界最高水準のコーディング能力
    SWE-bench Verified(大規模実務ソフトウェア評価)でトップ性能。複雑な長時間タスク(30時間超にも及ぶ集中力保持)でも高い能力を発揮!
  • リアルなPC利用ベンチマークの向上
    OSWorldベンチマークで、Sonnet 4の42.2%を遥かに超える 61.4% のスコアに到達。4か月間で飛躍的な伸び。
  • 推論・数学性能の向上
    他分野の評価でも著しく進歩。金融・法務・医療・STEMの専門家によるフィードバックも高評価。

2. 新機能・アップグレード

  • Claude Codeの強化
    • チェックポイント機能(進捗保存/ロールバック)
    • ターミナルインターフェース刷新
    • VS Codeネイティブ拡張

  • APIの強化
    • 新たに「コンテキスト編集」「メモリーツール」搭載。超長時間・複雑タスクに対応。

  • アプリ/会話機能
    • 会話中に直接コード実行・新規ファイル生成(スプレッドシート、スライド、文書)

  • Chrome拡張
    Maxプラン利用者に配布

  • Claude Agent SDK
    AIエージェント開発基盤を一般公開。長時間メモリ管理・権限制御など、実運用可能なエージェント開発が可能。

3. ベンチマーク

スクリーンショット 2025-10-01 111034.png

SWE-bench Verified
・77.2%(10回試行平均・200K思考予算/500問)
・モデルはbashやファイル編集を頻繁に使い、1問あたり100回以上ツール利用推奨プロンプトで評価されている
・パラレルテスト(複数案同時実行と最適案の選定)や独自テスト導入により複雑タスクへの対応力が向上
・1Mコンテキスト型では78.2%、高負荷並列時は82.0%
・GitHub実案件での修正率はGPT-5 Codex(74.5%)を上回る
・Terminal-Bench(コマンドライン自動化タスク)で50.0%を記録(Opus 4.1は46.5%、GPT-5は43.8%)
・PythonやJavaScriptなど複数言語に秀で、最大30時間以上の長時間・複雑タスクにも十分な集中力を維持できる事例が確認されている

OSWorld
・61.4%(Sonnet 4は42.2%)
・ブラウザ操作・シート入力・サイトナビゲーション等の実際のデスクトップ/Web業務タスク環境でのAI能力を評価しており、現状最高値
・Opus 4.1は44.4%、Sonnet 4は42.2%(4か月で大幅向上)
・サブタスクで小売86.2%、航空70.0%、通信98.0%などの結果も示され、「複数ステップの実業務手順でも人間に迫る性能」と現場開発者から高評価を受けている

その他分野も実力向上
・編集タスクのエラー率はSonnet 4の9%から0%へ改善
・Devinエージェントでプランニング性能が18%向上、総合評価スコアは12%アップ
・AIME 2025(高校数学)ではPythonツール利用で100%(非ツールモードで87%)
・GPQA Diamond(大学院レベル推論)で83.4%(GPT-5は85.7%、Gemini 2.5 Proは86.4%)
・MMMLU(多言語QA)で89.1%、MMMU(ビジュアル推論)で77.8%
・Finance Agent(金融分析)では55.3%(GPT-5は46.9%、Gemini 2.5 Proは29.4%)を記録
・長期シナリオと複数エージェント協働にも進化が見られ、コンテキスト200K〜最大1Mトークンに対応
・安全性・アライメントテストでも高評価(ASL-3対応)、誤検知率はSonnet 4比で1/10まで削減されている

4. 安全性・整合性

  • 最も整合性の高いモデルとして登場
    • 有害行動(ごますり・欺瞞・権力志向・妄想助長など)大幅低減
    • ASL-3(AI安全レベル3)で管理。分類器(フィルター)による危険入出力防止措置を強化
    • 誤検知(false positives)率はSonnet 4以降で10分の1、さらに2分の1まで低減

5. Claude Agent SDK 一般公開

  • 6か月以上の実運用で検証済みエージェント開発基盤を無償提供
  • 長期記憶管理、権限システム、サブエージェント協調などの課題を解決

Claude Agent SDK

6. 価格と体験プレビュー

  • 無料プランで使用可能
    Claude Sonnet 4.5はClaude.aiで誰でも無料で利用が可能。アカウントを登録し、無料プランを選択してからすぐに利用開始できます。
    ただし無料プラン特有の利用制限があるため、制限を超えると下のバージョンに自動でダウングレードされます。

  • Imagine with Claude
    Sonnet 4.5発表と同時に提供された研究プレビュー機能。Maxプラン利用者向け限定で、発表日から5日間のみ公式ページ(claude.ai/imagine)でアクセス・体験可能です。

    体験手順は以下の通りです。

    1. Maxプランでログインし、指定URLへアクセス
    2. チャット欄に「アプリを作って」等の指示を入力
    3. Claudeがコード、UI、アプリのプロトタイプを即時生成し、その場で確認・編集可能
      通常チャットと違い、サイドバーUIやリアルタイムページ遷移など複雑な開発プロセスを数分で体感できます。
      ※利用期間終了後はアクセス不可。

  • 価格
    Claude Sonnet 4.5のAPI利用料金は、従来と同じく入力100万トークンあたり3ドル/出力100万トークンあたり15ドルです。
    20万トークンまでの標準ウィンドウでこの料金が適用されます。

    20万トークン超の場合は階層料金

    • 入力:100万トークンあたり6ドル
    • 出力:100万トークンあたり22.5ドル
      ※プロンプトキャッシュ利用料など付帯料金もあり
      Claude ProやMaxプラン(月16,500円〜33,000円相当のコース)も用意されており、上限や優先実行枠など特典が異なります。

用途や体験パターンに応じてAPIかWebサービスかを選択でき、料金体系もシンプルかつ大規模開発にも対応しています。


出典:Anthropic公式ニュースリリース「Introducing Claude Sonnet 4.5」より

Claude Sonnet 4.5

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?