結論から言うと、2026年4月の覇者はAnthropicです。
昨日(4月16日)リリースされたClaude Opus 4.7は、SWE-bench Proで**64.3%**を叩き出し、GPT-5.4の57.7%とGemini 3.1 Proの54.2%を完全に粉砕しました。
さらに、4月8日にはClaude Managed Agentsがローンチ。これは「AIエージェントを放置プレイで動かす」マネージドサービスで、$0.08/時間でAnthropicが全部やってくれます。
この記事を読めば、明日から最新のAI開発ができます。
Claude Opus 4.7の衝撃的なベンチマーク
GPT-5.4を圧倒するコーディング性能
| ベンチマーク | Opus 4.7 | Opus 4.6 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-bench Verified | 87.6% | 80.8% | - | - |
| SWE-bench Pro | 64.3% | - | 57.7% | 54.2% |
| Cursorコーディング | 70% | 58% | - | - |
| GPQA Diamond | 94.2% | - | 94.4% | 94.3% |
ポイント: SWE-bench Proで6.6ポイント差は「圧勝」レベル。GPT-5.4はもはや周回遅れです。
Opus 4.7の3つの革新
1. レースコンディションを自力で修正
Terminal-Bench 2.0で、Opus 4.7は過去のどのモデルも解けなかった3つのタスクを解決しました。その1つが「複数ファイルにまたがる複雑なコードベースのレースコンディション修正」です。
# これまでのAI: 単一ファイルしか見れない
# Opus 4.7: 複数ファイルを横断して原因を特定 → 修正
2. ゴミコードを書かなくなった
コードの品質が明らかに向上しました。意味のないラッパー関数やフォールバック用の足場が積み重なることがなくなり、コードを書きながら自分で修正していきます。
— Anthropic公式ブログより
これ、めちゃくちゃ重要です。今までのAIコードは「動くけど汚い」が常でした。Opus 4.7はプロダクションレベルのコードを最初から書きます。
3. 解像度が上がった目(ビジョン強化)
画像をより高解像度で認識できるようになりました。デザインファイルからのコード生成、スクリーンショットからのバグ報告解析が格段に向上。
価格は据え置き!
| モデル | 入力 | 出力 |
|---|---|---|
| Opus 4.7 | $5/MTok | $25/MTok |
| Opus 4.6 | $5/MTok | $25/MTok |
価格変更なしで性能だけ上がるのは神アップデートです。
Claude Managed Agents: 放置プレイ開発の完成形
4月8日にローンチしたManaged Agentsは、AIエージェントを完全放置で動かすマネージドサービスです。
今までの問題
従来のAIエージェント開発:
1. インフラ構築 → 2週間
2. 状態管理実装 → 1週間
3. エラーハンドリング → 1週間
4. セキュリティ対策 → 1週間
5. 本番デプロイ → ???
合計: 1〜2ヶ月
Managed Agentsなら
from anthropic import Claude
# これだけでエージェントが動く
session = client.managed_agents.sessions.create(
model="claude-opus-4-7-20260416",
instructions="このリポジトリのバグを全部直して",
tools=[
{"type": "file_editor"},
{"type": "terminal"},
{"type": "web_browser"}
]
)
# 放置してOK。勝手にファイル編集、テスト実行、エラー修正
これの何がヤバいか?
- インフラ管理不要
- 状態管理不要
- エラーリカバリー自動
- 何時間でも動き続ける
料金体系
| 項目 | 料金 |
|---|---|
| トークン | 通常のAPI料金 |
| ランタイム | $0.08/時間 |
| アイドル時間 | 無料 |
| 無料枠 | 50時間/日/組織 |
計算してみましょう:
- 24時間稼働エージェント: 約 $58/月
- 1日8時間稼働: 約 $19/月
これ、インフラエンジニアの人件費と比べたらタダ同然です。
自前構築 vs Managed Agents
| 比較項目 | Managed Agents | 自前構築 |
|---|---|---|
| 初期構築 | 数時間 | 1〜2ヶ月 |
| 保守コスト | ゼロ | エンジニア人件費 |
| スケーリング | 自動 | 自分で設計 |
| セキュリティ | Anthropic管理 | 自己責任 |
| マルチモデル | ❌ Claudeのみ | ✅ 自由 |
| オンプレミス | ❌ 不可 | ✅ 可能 |
結論: 1日200〜300セッション以下なら、Managed Agentsの方が圧倒的にコスパが良い。それ以上なら自前構築を検討。
実践: Opus 4.7 + Managed Agentsでバグ修正を完全自動化
ステップ1: セッション作成
import anthropic
client = anthropic.Anthropic()
session = client.managed_agents.sessions.create(
model="claude-opus-4-7-20260416",
instructions="""
あなたは優秀なソフトウェアエンジニアです。
タスク:
1. GitHubのissueを確認
2. バグの原因を特定
3. 修正を実装
4. テストを実行して確認
5. プルリクエストを作成
すべて自動で実行してください。
""",
tools=[
{"type": "file_editor"},
{"type": "terminal"},
{"type": "web_browser"}
],
max_session_hours=4
)
ステップ2: 放置する
# 状態を確認(任意)
while True:
status = client.managed_agents.sessions.retrieve(session.id)
print(f"Status: {status.state}")
if status.state in ["completed", "failed"]:
break
time.sleep(60) # 1分ごとにチェック
# 結果を取得
result = client.managed_agents.sessions.retrieve(
session.id,
include=["messages", "files"]
)
ステップ3: PRをマージするだけ
Opus 4.7が勝手に:
- バグを特定
- コードを修正
- テストを追加
- PRを作成
あなたはPRをレビューしてマージするだけ。
GPT-5.4でもGeminiでもダメな理由
1. 長時間タスクへの耐性
Opus 4.7は「数時間」単位のタスクを安定して実行できます。GPT-5.4やGeminiは長時間タスクで迷走しがち。
2. ファイルシステム統合
Managed Agentsはファイル永続化をネイティブサポート。セッションが切断されても、作業途中のファイルは保持されます。
3. ツール実行の信頼性
Anthropicの最新ベンチマークによると、Opus 4.7のツール実行成功率は98.7%。GPT-5.4は93.2%です。
注意点: Mythos Previewはさらにヤバい
Anthropicは「Claude Mythos Preview」という未リリースモデルを持っています。
過去数週間、Claude Mythos Previewを使って、すべての主要OSとブラウザで数千のゼロデイ脆弱性を発見しました。
— Anthropic公式発表
Opus 4.7は「一般公開できる範囲で最強」のモデルです。Mythosは「強すぎて公開できない」レベル。
サイバーセキュリティ関係者へ: Anthropicは正規のセキュリティ目的でMythosを使いたい人向けに申請プログラムを用意しています。
まとめ: 今すぐやるべき3つのこと
-
Claude Codeをアップデート
claude updateOpus 4.7が自動で使えるようになります。
-
Managed Agentsのベータ申請
https://console.anthropic.com/settings/managed-agents から申請できます。 -
長時間タスクを試す
「このリポジトリのテストカバレッジを90%にして」みたいな、今まで人間がやっていたタスクを投げてみてください。
参考リンク
Claude Opus 4.7 公式発表
Claude Managed Agents 公式ドキュメント
SWE-bench Pro ベンチマーク結果
Managed Agents vs 自前構築のコスト比較
この記事が役に立ったら、いいねとストックをお願いします!
質問: あなたはOpus 4.7とManaged Agents、もう試しましたか?感想をコメントで教えてください!
次回予告: 「Claude Mythosで実際にゼロデイを見つけてみた」(Anthropicに怒られない範囲で)