0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【速報】Claude Opus 4.7が昨日リリース!GPT-5.4を完全粉砕したベンチマークと「放置でOK」なManaged Agents

0
Posted at

結論から言うと、2026年4月の覇者はAnthropicです。

昨日(4月16日)リリースされたClaude Opus 4.7は、SWE-bench Proで**64.3%**を叩き出し、GPT-5.4の57.7%とGemini 3.1 Proの54.2%を完全に粉砕しました。

さらに、4月8日にはClaude Managed Agentsがローンチ。これは「AIエージェントを放置プレイで動かす」マネージドサービスで、$0.08/時間でAnthropicが全部やってくれます。

この記事を読めば、明日から最新のAI開発ができます。

Claude Opus 4.7の衝撃的なベンチマーク

GPT-5.4を圧倒するコーディング性能

ベンチマーク Opus 4.7 Opus 4.6 GPT-5.4 Gemini 3.1 Pro
SWE-bench Verified 87.6% 80.8% - -
SWE-bench Pro 64.3% - 57.7% 54.2%
Cursorコーディング 70% 58% - -
GPQA Diamond 94.2% - 94.4% 94.3%

ポイント: SWE-bench Proで6.6ポイント差は「圧勝」レベル。GPT-5.4はもはや周回遅れです。

Opus 4.7の3つの革新

1. レースコンディションを自力で修正

Terminal-Bench 2.0で、Opus 4.7は過去のどのモデルも解けなかった3つのタスクを解決しました。その1つが「複数ファイルにまたがる複雑なコードベースのレースコンディション修正」です。

# これまでのAI: 単一ファイルしか見れない
# Opus 4.7: 複数ファイルを横断して原因を特定 → 修正

2. ゴミコードを書かなくなった

コードの品質が明らかに向上しました。意味のないラッパー関数やフォールバック用の足場が積み重なることがなくなり、コードを書きながら自分で修正していきます。
— Anthropic公式ブログより

これ、めちゃくちゃ重要です。今までのAIコードは「動くけど汚い」が常でした。Opus 4.7はプロダクションレベルのコードを最初から書きます。

3. 解像度が上がった目(ビジョン強化)

画像をより高解像度で認識できるようになりました。デザインファイルからのコード生成、スクリーンショットからのバグ報告解析が格段に向上。

価格は据え置き!

モデル 入力 出力
Opus 4.7 $5/MTok $25/MTok
Opus 4.6 $5/MTok $25/MTok

価格変更なしで性能だけ上がるのは神アップデートです。


Claude Managed Agents: 放置プレイ開発の完成形

4月8日にローンチしたManaged Agentsは、AIエージェントを完全放置で動かすマネージドサービスです。

今までの問題

従来のAIエージェント開発:
1. インフラ構築 → 2週間
2. 状態管理実装 → 1週間
3. エラーハンドリング → 1週間
4. セキュリティ対策 → 1週間
5. 本番デプロイ → ???

合計: 1〜2ヶ月

Managed Agentsなら

from anthropic import Claude

# これだけでエージェントが動く
session = client.managed_agents.sessions.create(
    model="claude-opus-4-7-20260416",
    instructions="このリポジトリのバグを全部直して",
    tools=[
        {"type": "file_editor"},
        {"type": "terminal"},
        {"type": "web_browser"}
    ]
)

# 放置してOK。勝手にファイル編集、テスト実行、エラー修正

これの何がヤバいか?

  1. インフラ管理不要
  2. 状態管理不要
  3. エラーリカバリー自動
  4. 何時間でも動き続ける

料金体系

項目 料金
トークン 通常のAPI料金
ランタイム $0.08/時間
アイドル時間 無料
無料枠 50時間/日/組織

計算してみましょう:

  • 24時間稼働エージェント: 約 $58/月
  • 1日8時間稼働: 約 $19/月

これ、インフラエンジニアの人件費と比べたらタダ同然です。

自前構築 vs Managed Agents

比較項目 Managed Agents 自前構築
初期構築 数時間 1〜2ヶ月
保守コスト ゼロ エンジニア人件費
スケーリング 自動 自分で設計
セキュリティ Anthropic管理 自己責任
マルチモデル ❌ Claudeのみ ✅ 自由
オンプレミス ❌ 不可 ✅ 可能

結論: 1日200〜300セッション以下なら、Managed Agentsの方が圧倒的にコスパが良い。それ以上なら自前構築を検討。


実践: Opus 4.7 + Managed Agentsでバグ修正を完全自動化

ステップ1: セッション作成

import anthropic

client = anthropic.Anthropic()

session = client.managed_agents.sessions.create(
    model="claude-opus-4-7-20260416",
    instructions="""
    あなたは優秀なソフトウェアエンジニアです。

    タスク:
    1. GitHubのissueを確認
    2. バグの原因を特定
    3. 修正を実装
    4. テストを実行して確認
    5. プルリクエストを作成

    すべて自動で実行してください。
    """,
    tools=[
        {"type": "file_editor"},
        {"type": "terminal"},
        {"type": "web_browser"}
    ],
    max_session_hours=4
)

ステップ2: 放置する

# 状態を確認(任意)
while True:
    status = client.managed_agents.sessions.retrieve(session.id)
    print(f"Status: {status.state}")

    if status.state in ["completed", "failed"]:
        break

    time.sleep(60)  # 1分ごとにチェック

# 結果を取得
result = client.managed_agents.sessions.retrieve(
    session.id,
    include=["messages", "files"]
)

ステップ3: PRをマージするだけ

Opus 4.7が勝手に:

  • バグを特定
  • コードを修正
  • テストを追加
  • PRを作成

あなたはPRをレビューしてマージするだけ。


GPT-5.4でもGeminiでもダメな理由

1. 長時間タスクへの耐性

Opus 4.7は「数時間」単位のタスクを安定して実行できます。GPT-5.4やGeminiは長時間タスクで迷走しがち。

2. ファイルシステム統合

Managed Agentsはファイル永続化をネイティブサポート。セッションが切断されても、作業途中のファイルは保持されます。

3. ツール実行の信頼性

Anthropicの最新ベンチマークによると、Opus 4.7のツール実行成功率は98.7%。GPT-5.4は93.2%です。


注意点: Mythos Previewはさらにヤバい

Anthropicは「Claude Mythos Preview」という未リリースモデルを持っています。

過去数週間、Claude Mythos Previewを使って、すべての主要OSとブラウザで数千のゼロデイ脆弱性を発見しました。
— Anthropic公式発表

Opus 4.7は「一般公開できる範囲で最強」のモデルです。Mythosは「強すぎて公開できない」レベル。

サイバーセキュリティ関係者へ: Anthropicは正規のセキュリティ目的でMythosを使いたい人向けに申請プログラムを用意しています。


まとめ: 今すぐやるべき3つのこと

  1. Claude Codeをアップデート

    claude update
    

    Opus 4.7が自動で使えるようになります。

  2. Managed Agentsのベータ申請
    https://console.anthropic.com/settings/managed-agents から申請できます。

  3. 長時間タスクを試す
    「このリポジトリのテストカバレッジを90%にして」みたいな、今まで人間がやっていたタスクを投げてみてください。


参考リンク

Claude Opus 4.7 公式発表

Claude Managed Agents 公式ドキュメント

SWE-bench Pro ベンチマーク結果

Managed Agents vs 自前構築のコスト比較


この記事が役に立ったら、いいねとストックをお願いします!

質問: あなたはOpus 4.7とManaged Agents、もう試しましたか?感想をコメントで教えてください!

次回予告: 「Claude Mythosで実際にゼロデイを見つけてみた」(Anthropicに怒られない範囲で)

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?