【速報】Claude Opus 4.7が昨日リリース！GPT-5.4を完全粉砕したベンチマークと「放置でOK」なManaged Agents

Posted at 2026-04-17

結論から言うと、2026年4月の覇者はAnthropicです。

昨日（4月16日）リリースされたClaude Opus 4.7は、SWE-bench Proで**64.3%**を叩き出し、GPT-5.4の57.7%とGemini 3.1 Proの54.2%を完全に粉砕しました。

さらに、4月8日にはClaude Managed Agentsがローンチ。これは「AIエージェントを放置プレイで動かす」マネージドサービスで、$0.08/時間でAnthropicが全部やってくれます。

この記事を読めば、明日から最新のAI開発ができます。

Claude Opus 4.7の衝撃的なベンチマーク

GPT-5.4を圧倒するコーディング性能

ベンチマーク	Opus 4.7	Opus 4.6	GPT-5.4	Gemini 3.1 Pro
SWE-bench Verified	87.6%	80.8%	-	-
SWE-bench Pro	64.3%	-	57.7%	54.2%
Cursorコーディング	70%	58%	-	-
GPQA Diamond	94.2%	-	94.4%	94.3%

ポイント: SWE-bench Proで6.6ポイント差は「圧勝」レベル。GPT-5.4はもはや周回遅れです。

Opus 4.7の3つの革新

1. レースコンディションを自力で修正

Terminal-Bench 2.0で、Opus 4.7は過去のどのモデルも解けなかった3つのタスクを解決しました。その1つが「複数ファイルにまたがる複雑なコードベースのレースコンディション修正」です。

# これまでのAI: 単一ファイルしか見れない
# Opus 4.7: 複数ファイルを横断して原因を特定 → 修正

2. ゴミコードを書かなくなった

コードの品質が明らかに向上しました。意味のないラッパー関数やフォールバック用の足場が積み重なることがなくなり、コードを書きながら自分で修正していきます。
— Anthropic公式ブログより

これ、めちゃくちゃ重要です。今までのAIコードは「動くけど汚い」が常でした。Opus 4.7はプロダクションレベルのコードを最初から書きます。

3. 解像度が上がった目（ビジョン強化）

画像をより高解像度で認識できるようになりました。デザインファイルからのコード生成、スクリーンショットからのバグ報告解析が格段に向上。

価格は据え置き！

モデル	入力	出力
Opus 4.7	$5/MTok	$25/MTok
Opus 4.6	$5/MTok	$25/MTok

価格変更なしで性能だけ上がるのは神アップデートです。

Claude Managed Agents: 放置プレイ開発の完成形

4月8日にローンチしたManaged Agentsは、AIエージェントを完全放置で動かすマネージドサービスです。

今までの問題

従来のAIエージェント開発:
1. インフラ構築 → 2週間
2. 状態管理実装 → 1週間
3. エラーハンドリング → 1週間
4. セキュリティ対策 → 1週間
5. 本番デプロイ → ???

合計: 1〜2ヶ月

Managed Agentsなら

from anthropic import Claude

# これだけでエージェントが動く
session = client.managed_agents.sessions.create(
    model="claude-opus-4-7-20260416",
    instructions="このリポジトリのバグを全部直して",
    tools=[
        {"type": "file_editor"},
        {"type": "terminal"},
        {"type": "web_browser"}
    ]
)

# 放置してOK。勝手にファイル編集、テスト実行、エラー修正

これの何がヤバいか？

インフラ管理不要
状態管理不要
エラーリカバリー自動
何時間でも動き続ける

料金体系

項目	料金
トークン	通常のAPI料金
ランタイム	$0.08/時間
アイドル時間	無料
無料枠	50時間/日/組織

計算してみましょう:

24時間稼働エージェント: 約 $58/月
1日8時間稼働: 約 $19/月

これ、インフラエンジニアの人件費と比べたらタダ同然です。

自前構築 vs Managed Agents

比較項目	Managed Agents	自前構築
初期構築	数時間	1〜2ヶ月
保守コスト	ゼロ	エンジニア人件費
スケーリング	自動	自分で設計
セキュリティ	Anthropic管理	自己責任
マルチモデル	❌ Claudeのみ	✅ 自由
オンプレミス	❌ 不可	✅ 可能

結論: 1日200〜300セッション以下なら、Managed Agentsの方が圧倒的にコスパが良い。それ以上なら自前構築を検討。

実践: Opus 4.7 + Managed Agentsでバグ修正を完全自動化

ステップ1: セッション作成

import anthropic

client = anthropic.Anthropic()

session = client.managed_agents.sessions.create(
    model="claude-opus-4-7-20260416",
    instructions="""
    あなたは優秀なソフトウェアエンジニアです。

    タスク:
    1. GitHubのissueを確認
    2. バグの原因を特定
    3. 修正を実装
    4. テストを実行して確認
    5. プルリクエストを作成

    すべて自動で実行してください。
    """,
    tools=[
        {"type": "file_editor"},
        {"type": "terminal"},
        {"type": "web_browser"}
    ],
    max_session_hours=4
)

ステップ2: 放置する

# 状態を確認（任意）
while True:
    status = client.managed_agents.sessions.retrieve(session.id)
    print(f"Status: {status.state}")

    if status.state in ["completed", "failed"]:
        break

    time.sleep(60)  # 1分ごとにチェック

# 結果を取得
result = client.managed_agents.sessions.retrieve(
    session.id,
    include=["messages", "files"]
)

ステップ3: PRをマージするだけ

Opus 4.7が勝手に:

バグを特定
コードを修正
テストを追加
PRを作成

あなたはPRをレビューしてマージするだけ。

GPT-5.4でもGeminiでもダメな理由

1. 長時間タスクへの耐性

Opus 4.7は「数時間」単位のタスクを安定して実行できます。GPT-5.4やGeminiは長時間タスクで迷走しがち。

2. ファイルシステム統合

Managed Agentsはファイル永続化をネイティブサポート。セッションが切断されても、作業途中のファイルは保持されます。

3. ツール実行の信頼性

Anthropicの最新ベンチマークによると、Opus 4.7のツール実行成功率は98.7%。GPT-5.4は93.2%です。

注意点: Mythos Previewはさらにヤバい

Anthropicは「Claude Mythos Preview」という未リリースモデルを持っています。

過去数週間、Claude Mythos Previewを使って、すべての主要OSとブラウザで数千のゼロデイ脆弱性を発見しました。
— Anthropic公式発表

Opus 4.7は「一般公開できる範囲で最強」のモデルです。Mythosは「強すぎて公開できない」レベル。

サイバーセキュリティ関係者へ: Anthropicは正規のセキュリティ目的でMythosを使いたい人向けに申請プログラムを用意しています。

まとめ: 今すぐやるべき3つのこと

Claude Codeをアップデート
```
claude update
```
Opus 4.7が自動で使えるようになります。
Managed Agentsのベータ申請
https://console.anthropic.com/settings/managed-agents から申請できます。
長時間タスクを試す
「このリポジトリのテストカバレッジを90%にして」みたいな、今まで人間がやっていたタスクを投げてみてください。

参考リンク

Claude Opus 4.7 公式発表

Claude Managed Agents 公式ドキュメント

SWE-bench Pro ベンチマーク結果

Managed Agents vs 自前構築のコスト比較

この記事が役に立ったら、いいねとストックをお願いします！

質問: あなたはOpus 4.7とManaged Agents、もう試しましたか？感想をコメントで教えてください！

次回予告: 「Claude Mythosで実際にゼロデイを見つけてみた」（Anthropicに怒られない範囲で）

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up