2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Claude Sonnet 4.5、奴は四天王の中でも最弱…

Last updated at Posted at 2025-10-01

image.png

TL;DR

  • SWE-bench Verifiedで首位。実務系バグ修正ベンチの実測でトップ帯。(swebench.com)
  • OSWorldでも先頭、PC操作(ブラウザ/スプレッドシート操作など)能力が大幅強化。(Anthropic)
  • 長時間エージェント稼働(実務観測で30時間超)で、長尺タスクが安定。(Anthropic)
  • GitHub Copilotのcoding agentが採用(Pro系プランで自動利用)。(The GitHub Blog)
  • 各クラウドで即使える(Bedrock/Vertex)。(Amazon Web Services, Inc.)
  • 安全性ベンチ(Agent Red Teaming)でも最上位圏の耐性。(app.grayswan.ai)
  • 一方で画像生成/編集はGemini 2.5 Flash Imageが強勢。その文脈ではソネットが“最弱”(=適材適所の意味)。(Google Developers Blog)

「四天王」って誰のこと?

ここでの“四天王”は、2025-10-01(JST)時点で実務インパクトが大きい旗艦系の代表格を指すゆるい比喩(Anthropic / OpenAI / Google / ほか)です。モデルごとに勝ち筋が違うため、用途で最強が入れ替わるのが2025年の実情です。
そのうえでClaude Sonnet 4.5は**「コード」「エージェント」「PC操作」軸の覇権候補**。(Anthropic)

なお、Xでは「総合知能#4、Opus 4.1超え、Anthropicがトップ3圏内」という評価も話題化。市場の“体感順位”と用途別の“実務順位”は必ずしも一致しない点に注意です。(X (formerly Twitter))


どこが強い?(実績ベース)

1) 実務バグ修正:SWE-bench Verifiedで首位

公開リーダーボードと公式発表が揃ってSonnet 4.5がトップ帯。実案件寄りの課題で結果を出すのが強み。(swebench.com)

2) PC操作(Computer Use):OSWorldでリード

ブラウザ遷移やファイル編集など人の“手作業”代替を評価するOSWorldで**61.4%**を記録(Sonnet 4から大幅伸長)。長時間の複合タスクで効きます。(Anthropic)

3) 長時間エージェント:30時間超の連続稼働

**「30+時間」**という長尺稼働の実観測。設計/移行/データ整備のような“地力が要る”仕事で真価を発揮。(Anthropic)

4) IDE/企業導入のしやすさ:Copilot/Bedrock/Vertex

  • GitHub Copilotのcoding agentがSonnet 4.5を既定採用(Pro/Pro+は自動適用)。(The GitHub Blog)
  • AWS BedrockGoogle Vertex AIでも提供開始。既存基盤に“差し替え”で入れやすい。(Amazon Web Services, Inc.)

5) 安全性:Agent Red Teamingで低ASR

外部のGray Swan系評価で攻撃成功率が最小水準を示す順位。エージェント実運用での安心感が増しました。(app.grayswan.ai)


どこが“最弱”になり得る?

誤解のないように:ここでの「最弱」は**“四天王内での相対”**という意味です。

  • 画像生成/編集の一騎打ち
    画像そのものの生成・編集は、Gemini 2.5 Flash Imageの専用モデルが強力(マルチ画像合成、精密編集、価格体系の明瞭さなど)。この領域はソネットよりGeminiを先に当てるのが定石です。(Google Developers Blog)
  • “文芸性”偏重の純粋生成
    企画書の長編コピーや純クリエイティブ中心の案件では、他社旗艦を併用するチームも。適材適所のスイッチング設計が2025年の最適解です(各社の強調ポイントが異なるため)。※汎用順位はベンチと現場感で揺れます。

実務での使い分けレシピ

A. 既存リポジトリのバグ修正(SWE系タスク)

  1. 課題Issue/テスト失敗ログ/再現手順をまとめて貼る
  2. まずテストを書く→再現→修正」を明示(Claudeは自前テスト→修正の戦略が得意)
  3. CIログを随時投入し、**“差分パッチのみ”**を要求
    → SWE-bench Verifiedでの強さが出る典型パターン。(Anthropic)

B. 長時間エージェントでの“地ならし”作業

  • 要件: 大量の設定変更、API移行、データ整備、UIスクレイピング結果の集計など
  • コツ: 目標/許可範囲/ロールバック条件を冒頭で宣言。チェックポイント(Claude Code)やメモリ/コンテキスト編集を使い、30h級の実行を回す。(Anthropic)

C. PC操作での“手作業”自動化

  • ブラウザ操作→表計算作成→ファイル出力までをワンショット指定。
  • 途中経過をスクショ/説明」させ、逸脱の早期検知。
  • Chrome拡張やCopilot Agentと合わせ技が効く。(Anthropic)

導入と料金の目安

  • API名claude-sonnet-4-5(価格はSonnet 4据え置き:$3/$15 per MTok)(Anthropic)
  • GitHub Copilot:Pro/Pro+はcoding agentで自動利用(Business/Enterpriseはポリシー有効化)。(The GitHub Blog)
  • AWS Bedrock / Google Vertex AI:即日提供アナウンス済み。既存の権限/監査に乗せやすい。(Amazon Web Services, Inc.)

ベンチの読み方(現場視点)

  • SWE-bench Verified=「既存大規模リポのバグを直せるか」を見るため、実務相性の指標として有効。Sonnet 4.5が先頭。(swebench.com)
  • OSWorld=「PCを実際に使えるか」の総合力。RPA置換の未来を占うベンチ。(Anthropic)
  • Agent Red Teaming(Gray Swan)=攻撃耐性。**本番で“壊れにくい”**ことを示す。(app.grayswan.ai)
  • 総合“知能”順位の言説は、評価軸の混在でブレがち。用途別に最強が入れ替わる時代です。(X (formerly Twitter))

それでも「最弱」って言いたいときの安全弁

  • 画像生成はGemini、コードとPC操作はSonnetという役割分担を決めておく。(Google Developers Blog)
  • Copilotのcoding agent企業向けクラウドで**運用面の“足回り”**を固めてから拡張。(The GitHub Blog)
  • 安全性ベンチを定期監視し、権限/ツール使用/外部アクセスをポリシー化。(app.grayswan.ai)

参考リンク(一次情報多め)


しめ:最弱(さいじゃく)=“最強の中での最適化対象”

「四天王の中では最弱」という煽りは、文脈が変われば最強にもなるのが2025年のLLM戦局。
“タスク×モデルの配車”を設計して、Sonnet 4.5はコード/エージェント/PC操作に集中投入。画像はGemini、その他は要件次第で切替。
—これが、現場で勝ち筋を最大化する運用の基本線です。

2
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?