0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Claude 4.5 Sonnetは「同コストで成功率を押し上げる」――過去Sonnet/Opus/Cursor長コンテキストと徹底比較【2025年版】

Posted at

結論

•	Claude 4.5 Sonnet(以下「4.5」)は、実務系コーディング&長時間タスクで顕著な改善(SWE-bench Verified 77.2%/並列計算で82%・OSWorld 61.4%・30時間以上の自律運用)を示しつつ、APIの基本単価は従来Sonnetと据え置き(入力$3/100万Tok・出力$15/100万Tok)。

⇒ **「同じお金で成功率が上がる」**のが最大の価値。Cursor運用でもこの“実費連動”の恩恵を受けやすい。 

根拠

•	ベンチでの伸長
•	公開値:SWE-bench Verified 77.2%(並列推論で82%), OSWorld 61.4%。前年モデル群や従来Sonnetからコーディング×PC操作が大幅上振れ。  
•	持久力=エージェント適性
•	30時間超の自律実行デモ/報道が相次ぎ、長い手順・中断再開・ツール操作を含む運用で強み。  
•	価格は据え置き
•	4.5のAPI単価はSonnet 4と同じ:入力$3/出力$15(≤200K)。>200Kは入力$6/出力$22.5。プロンプトキャッシュで最大90%節約、公称。  
•	Cursorのクレジット体系が“API実費”準拠
•	CursorはProで月$20分のAPI使用を同社が負担し、超過はモデルAPI原価で従量。したがって4.5=Sonnet価格帯のまま、費用対効果の改善がそのまま反映される。最大1Mトークン級のMaxモードも案内されている。  

比較と具体像

  1. 「4.5」vs 過去Sonnet(3.5/3.7/4)
    • 性能
    • 4.5:SWE-bench Verified 77.2%(82%)/OSWorld 61.4%/30h自律。
    • Sonnet 4:従来より強力だが、4.5が実務系ベンチで上回る(特にPC操作・長時間)。
    • Sonnet 3.7/3.5:価格が軽いわけではなく、4.5と同額のケースが多い(=同コストで成功率差)。 
    • コスト(API・≤200K帯)
    • 共通:入力$3/出力$15。>200K は入力$6/出力$22.5。キャッシュ(≤200K:Write $3.75/Read $0.30)でリトライ多めの開発が安くなる。 
    • 使いどころ
    • SWE系課題・既存コード改修・テスト駆動修正・ブラウザ/CLI操作が絡む開発。「失敗→再試行」コストが相対的に下がるため、実効コスト(完了までの総額)で有利。

  2. **Opus系(4/4.1)**との位置づけ
    • 価格:Opus 4/4.1=入力$15/出力$75でSonnetの5倍。4.5が同額のまま精度を伸ばしているため、“Opusでないと不可”な案件以外は4.5が費用対効果高。 
    • 性能ニュアンス:Opusは最上位推論(深い思考・難問)で依然強力だが、実務コーディングや連続タスクでは4.5のSWE/OSWorld/30h実績が魅力。用途で住み分け。 

  3. Cursor特有:長コンテキスト(“1M”相当)とクレジット消費
    • 1Mトークン相当の長文脈
    • AnthropicはSonnet 4/4.5に1Mトークン文脈を段階提供(APIのβフラグ/一部Tier条件)。Cursor側も Max Mode で“最大1M”級の長文脈を案内。長いコードベース取り回しに効く。
    • 留意点:>200Kは長文脈料金(入力$6/出力$22.5)に切り替わるため、コスト跳ねやすい。分割投入+キャッシュ活用が実務設計。 
    • クレジット消費の考え方(Cursor)
    • Pro = 月$20ぶんの“API実費”相当を含む/超過は原価で従量。モデルを高額にするほど消費が早い(Opusは特に注意)。4.5はSonnet価格のため、同じ$20でも実行回数を確保しやすい。 
    • 実務Tips
    • キャッシュ前提のプロンプト分割/再利用率を上げる(仕様・リポ構造・テストの定型をキャッシュ化)。
    • >200Kを常用しない設計(要約→分割投入/段階的RAG)。
    • 高難度だけ Opus、それ以外は4.5で回す“二段構え”。

  4. ざっくり費用感(≤200K帯のイメージ)
    • 1リクエスト=入力10,000Tok+出力5,000Tokなら、
    • 入力 $0.03(= 10k/1M × $3)+出力 $0.075(= 5k/1M × $15)⇒ 合計 ≈ $0.105。
    • 月$20のCursor Pro含み分なら約190回が目安(入出力比・思考トークンで変動)。 

まとめ

•	**4.5は「同コストで成功率アップ」**が主眼。コーディング/PC操作/長手順の実務で、4/3.7/3.5→4.5の移行は強く推奨。
•	Opusは最上位難問や厳密推論に温存し、日常の開発フローは4.5で回すのが総額最適。
•	CursorではAPI実費連動+Max Mode(~1M)の特性を理解し、>200K帯は設計で抑える/キャッシュ徹底で費用対効果を最大化しよう。  

出典・一次情報(主要)
• Anthropic 公式:4.5 発表(性能・価格据え置き)/価格ページ(>200K料金・キャッシュ)。 
• ベンチ実績:SWE-bench Verified 77.2%(82%)、OSWorld 61.4%、30h運用。 
• Cursor 公式:料金・クレジット仕様、Max Mode(~1M)。 
• Opus 価格:Opus 4/4.1 の入力$15・出力$75。 
• 1M文脈アップデート:Sonnet 4/4.5 の1Mトークン文脈(API β/一部Tier)。 

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?