TL;DR
- SWE-bench Verifiedで首位。実務系バグ修正ベンチの実測でトップ帯。(swebench.com)
- OSWorldでも先頭、PC操作(ブラウザ/スプレッドシート操作など)能力が大幅強化。(Anthropic)
- 長時間エージェント稼働(実務観測で30時間超)で、長尺タスクが安定。(Anthropic)
- GitHub Copilotのcoding agentが採用(Pro系プランで自動利用)。(The GitHub Blog)
- 各クラウドで即使える(Bedrock/Vertex)。(Amazon Web Services, Inc.)
- 安全性ベンチ(Agent Red Teaming)でも最上位圏の耐性。(app.grayswan.ai)
- 一方で画像生成/編集はGemini 2.5 Flash Imageが強勢。その文脈ではソネットが“最弱”(=適材適所の意味)。(Google Developers Blog)
「四天王」って誰のこと?
ここでの“四天王”は、2025-10-01(JST)時点で実務インパクトが大きい旗艦系の代表格を指すゆるい比喩(Anthropic / OpenAI / Google / ほか)です。モデルごとに勝ち筋が違うため、用途で最強が入れ替わるのが2025年の実情です。
そのうえでClaude Sonnet 4.5は**「コード」「エージェント」「PC操作」軸の覇権候補**。(Anthropic)
なお、Xでは「総合知能#4、Opus 4.1超え、Anthropicがトップ3圏内」という評価も話題化。市場の“体感順位”と用途別の“実務順位”は必ずしも一致しない点に注意です。(X (formerly Twitter))
どこが強い?(実績ベース)
1) 実務バグ修正:SWE-bench Verifiedで首位
公開リーダーボードと公式発表が揃ってSonnet 4.5がトップ帯。実案件寄りの課題で結果を出すのが強み。(swebench.com)
2) PC操作(Computer Use):OSWorldでリード
ブラウザ遷移やファイル編集など人の“手作業”代替を評価するOSWorldで**61.4%**を記録(Sonnet 4から大幅伸長)。長時間の複合タスクで効きます。(Anthropic)
3) 長時間エージェント:30時間超の連続稼働
**「30+時間」**という長尺稼働の実観測。設計/移行/データ整備のような“地力が要る”仕事で真価を発揮。(Anthropic)
4) IDE/企業導入のしやすさ:Copilot/Bedrock/Vertex
- GitHub Copilotのcoding agentがSonnet 4.5を既定採用(Pro/Pro+は自動適用)。(The GitHub Blog)
- AWS Bedrock/Google Vertex AIでも提供開始。既存基盤に“差し替え”で入れやすい。(Amazon Web Services, Inc.)
5) 安全性:Agent Red Teamingで低ASR
外部のGray Swan系評価で攻撃成功率が最小水準を示す順位。エージェント実運用での安心感が増しました。(app.grayswan.ai)
どこが“最弱”になり得る?
誤解のないように:ここでの「最弱」は**“四天王内での相対”**という意味です。
-
画像生成/編集の一騎打ち
画像そのものの生成・編集は、Gemini 2.5 Flash Imageの専用モデルが強力(マルチ画像合成、精密編集、価格体系の明瞭さなど)。この領域はソネットよりGeminiを先に当てるのが定石です。(Google Developers Blog) -
“文芸性”偏重の純粋生成
企画書の長編コピーや純クリエイティブ中心の案件では、他社旗艦を併用するチームも。適材適所のスイッチング設計が2025年の最適解です(各社の強調ポイントが異なるため)。※汎用順位はベンチと現場感で揺れます。
実務での使い分けレシピ
A. 既存リポジトリのバグ修正(SWE系タスク)
- 課題Issue/テスト失敗ログ/再現手順をまとめて貼る
- 「まずテストを書く→再現→修正」を明示(Claudeは自前テスト→修正の戦略が得意)
- CIログを随時投入し、**“差分パッチのみ”**を要求
→ SWE-bench Verifiedでの強さが出る典型パターン。(Anthropic)
B. 長時間エージェントでの“地ならし”作業
- 要件: 大量の設定変更、API移行、データ整備、UIスクレイピング結果の集計など
- コツ: 目標/許可範囲/ロールバック条件を冒頭で宣言。チェックポイント(Claude Code)やメモリ/コンテキスト編集を使い、30h級の実行を回す。(Anthropic)
C. PC操作での“手作業”自動化
- ブラウザ操作→表計算作成→ファイル出力までをワンショット指定。
- 「途中経過をスクショ/説明」させ、逸脱の早期検知。
- Chrome拡張やCopilot Agentと合わせ技が効く。(Anthropic)
導入と料金の目安
-
API名:
claude-sonnet-4-5(価格はSonnet 4据え置き:$3/$15 per MTok)(Anthropic) - GitHub Copilot:Pro/Pro+はcoding agentで自動利用(Business/Enterpriseはポリシー有効化)。(The GitHub Blog)
- AWS Bedrock / Google Vertex AI:即日提供アナウンス済み。既存の権限/監査に乗せやすい。(Amazon Web Services, Inc.)
ベンチの読み方(現場視点)
- SWE-bench Verified=「既存大規模リポのバグを直せるか」を見るため、実務相性の指標として有効。Sonnet 4.5が先頭。(swebench.com)
- OSWorld=「PCを実際に使えるか」の総合力。RPA置換の未来を占うベンチ。(Anthropic)
- Agent Red Teaming(Gray Swan)=攻撃耐性。**本番で“壊れにくい”**ことを示す。(app.grayswan.ai)
- 総合“知能”順位の言説は、評価軸の混在でブレがち。用途別に最強が入れ替わる時代です。(X (formerly Twitter))
それでも「最弱」って言いたいときの安全弁
- 画像生成はGemini、コードとPC操作はSonnetという役割分担を決めておく。(Google Developers Blog)
- Copilotのcoding agentや企業向けクラウドで**運用面の“足回り”**を固めてから拡張。(The GitHub Blog)
- 安全性ベンチを定期監視し、権限/ツール使用/外部アクセスをポリシー化。(app.grayswan.ai)
参考リンク(一次情報多め)
- Introducing Claude Sonnet 4.5(公式)— SWE/OSWorld/30h/価格/製品群。(Anthropic)
- SWE-bench Leaderboards(公式LB)。(swebench.com)
- GitHub Copilot coding agentによる採用(Changelog)。(The GitHub Blog)
- AWS Bedrockでの提供開始。(Amazon Web Services, Inc.)
- Vertex AIでの提供開始。(Google Cloud)
- Gray Swan:Agent Red Teaming Leaderboard。(app.grayswan.ai)
- Gemini 2.5 Flash Image(画像生成/編集)。(Google Developers Blog)
- 話題のXポスト(総合順位の言及)。(X (formerly Twitter))
しめ:最弱(さいじゃく)=“最強の中での最適化対象”
「四天王の中では最弱」という煽りは、文脈が変われば最強にもなるのが2025年のLLM戦局。
“タスク×モデルの配車”を設計して、Sonnet 4.5はコード/エージェント/PC操作に集中投入。画像はGemini、その他は要件次第で切替。
—これが、現場で勝ち筋を最大化する運用の基本線です。
