Claude Sonnet 4.5、奴は四天王の中でも最弱…

Last updated at 2025-10-01Posted at 2025-10-01

TL;DR

SWE-bench Verifiedで首位。実務系バグ修正ベンチの実測でトップ帯。(swebench.com)
OSWorldでも先頭、PC操作（ブラウザ/スプレッドシート操作など）能力が大幅強化。(Anthropic)
長時間エージェント稼働（実務観測で30時間超）で、長尺タスクが安定。(Anthropic)
GitHub Copilotのcoding agentが採用（Pro系プランで自動利用）。(The GitHub Blog)
各クラウドで即使える（Bedrock/Vertex）。(Amazon Web Services, Inc.)
安全性ベンチ（Agent Red Teaming）でも最上位圏の耐性。(app.grayswan.ai)
一方で画像生成/編集はGemini 2.5 Flash Imageが強勢。その文脈ではソネットが“最弱”（=適材適所の意味）。(Google Developers Blog)

「四天王」って誰のこと？

ここでの“四天王”は、2025-10-01（JST）時点で実務インパクトが大きい旗艦系の代表格を指すゆるい比喩（Anthropic / OpenAI / Google / ほか）です。モデルごとに勝ち筋が違うため、用途で最強が入れ替わるのが2025年の実情です。
そのうえでClaude Sonnet 4.5は**「コード」「エージェント」「PC操作」軸の覇権候補**。(Anthropic)

なお、Xでは「総合知能#4、Opus 4.1超え、Anthropicがトップ3圏内」という評価も話題化。市場の“体感順位”と用途別の“実務順位”は必ずしも一致しない点に注意です。(X (formerly Twitter))

どこが強い？（実績ベース）

1) 実務バグ修正：SWE-bench Verifiedで首位

公開リーダーボードと公式発表が揃ってSonnet 4.5がトップ帯。実案件寄りの課題で結果を出すのが強み。(swebench.com)

2) PC操作（Computer Use）：OSWorldでリード

ブラウザ遷移やファイル編集など人の“手作業”代替を評価するOSWorldで**61.4%**を記録（Sonnet 4から大幅伸長）。長時間の複合タスクで効きます。(Anthropic)

3) 長時間エージェント：30時間超の連続稼働

**「30+時間」**という長尺稼働の実観測。設計/移行/データ整備のような“地力が要る”仕事で真価を発揮。(Anthropic)

4) IDE/企業導入のしやすさ：Copilot/Bedrock/Vertex

GitHub Copilotのcoding agentがSonnet 4.5を既定採用（Pro/Pro+は自動適用）。(The GitHub Blog)
AWS Bedrock／Google Vertex AIでも提供開始。既存基盤に“差し替え”で入れやすい。(Amazon Web Services, Inc.)

5) 安全性：Agent Red Teamingで低ASR

外部のGray Swan系評価で攻撃成功率が最小水準を示す順位。エージェント実運用での安心感が増しました。(app.grayswan.ai)

どこが“最弱”になり得る？

誤解のないように：ここでの「最弱」は**“四天王内での相対”**という意味です。

画像生成/編集の一騎打ち
画像そのものの生成・編集は、Gemini 2.5 Flash Imageの専用モデルが強力（マルチ画像合成、精密編集、価格体系の明瞭さなど）。この領域はソネットよりGeminiを先に当てるのが定石です。(Google Developers Blog)
“文芸性”偏重の純粋生成
企画書の長編コピーや純クリエイティブ中心の案件では、他社旗艦を併用するチームも。適材適所のスイッチング設計が2025年の最適解です（各社の強調ポイントが異なるため）。※汎用順位はベンチと現場感で揺れます。

実務での使い分けレシピ

A. 既存リポジトリのバグ修正（SWE系タスク）

課題Issue/テスト失敗ログ/再現手順をまとめて貼る
「まずテストを書く→再現→修正」を明示（Claudeは自前テスト→修正の戦略が得意）
CIログを随時投入し、**“差分パッチのみ”**を要求
→ SWE-bench Verifiedでの強さが出る典型パターン。(Anthropic)

B. 長時間エージェントでの“地ならし”作業

要件： 大量の設定変更、API移行、データ整備、UIスクレイピング結果の集計など
コツ： 目標/許可範囲/ロールバック条件を冒頭で宣言。チェックポイント（Claude Code）やメモリ/コンテキスト編集を使い、30h級の実行を回す。(Anthropic)

C. PC操作での“手作業”自動化

ブラウザ操作→表計算作成→ファイル出力までをワンショット指定。
「途中経過をスクショ/説明」させ、逸脱の早期検知。
Chrome拡張やCopilot Agentと合わせ技が効く。(Anthropic)

導入と料金の目安

API名：claude-sonnet-4-5（価格はSonnet 4据え置き：$3/$15 per MTok）(Anthropic)
GitHub Copilot：Pro/Pro+はcoding agentで自動利用（Business/Enterpriseはポリシー有効化）。(The GitHub Blog)
AWS Bedrock / Google Vertex AI：即日提供アナウンス済み。既存の権限/監査に乗せやすい。(Amazon Web Services, Inc.)

ベンチの読み方（現場視点）

SWE-bench Verified＝「既存大規模リポのバグを直せるか」を見るため、実務相性の指標として有効。Sonnet 4.5が先頭。(swebench.com)
OSWorld＝「PCを実際に使えるか」の総合力。RPA置換の未来を占うベンチ。(Anthropic)
Agent Red Teaming（Gray Swan）＝攻撃耐性。**本番で“壊れにくい”**ことを示す。(app.grayswan.ai)
総合“知能”順位の言説は、評価軸の混在でブレがち。用途別に最強が入れ替わる時代です。(X (formerly Twitter))

それでも「最弱」って言いたいときの安全弁

画像生成はGemini、コードとPC操作はSonnetという役割分担を決めておく。(Google Developers Blog)
Copilotのcoding agentや企業向けクラウドで**運用面の“足回り”**を固めてから拡張。(The GitHub Blog)
安全性ベンチを定期監視し、権限/ツール使用/外部アクセスをポリシー化。(app.grayswan.ai)

参考リンク（一次情報多め）

Introducing Claude Sonnet 4.5（公式）— SWE/OSWorld/30h/価格/製品群。(Anthropic)
SWE-bench Leaderboards（公式LB）。(swebench.com)
GitHub Copilot coding agentによる採用（Changelog）。(The GitHub Blog)
AWS Bedrockでの提供開始。(Amazon Web Services, Inc.)
Vertex AIでの提供開始。(Google Cloud)
Gray Swan：Agent Red Teaming Leaderboard。(app.grayswan.ai)
Gemini 2.5 Flash Image（画像生成/編集）。(Google Developers Blog)
話題のXポスト（総合順位の言及）。(X (formerly Twitter))

しめ：最弱（さいじゃく）＝“最強の中での最適化対象”

「四天王の中では最弱」という煽りは、文脈が変われば最強にもなるのが2025年のLLM戦局。
“タスク×モデルの配車”を設計して、Sonnet 4.5はコード/エージェント/PC操作に集中投入。画像はGemini、その他は要件次第で切替。
—これが、現場で勝ち筋を最大化する運用の基本線です。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up