0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Claude Opus 4.7完全解説 — SWE-bench Pro 64.3%の衝撃

0
Last updated at Posted at 2026-05-29

📺 この記事は YouTube チャンネル きなこもっちーのテック深掘り の動画解説記事です。
▶️ 動画はこちら → Claude Opus 4.7完全解説 — SWE-bench Pro 64.3%の衝撃

🐹🦜 この記事に登場する2匹

  • 🐹 もっちー(ハムスター)… AI はまだ勉強中。「それどういうこと?」と素朴に質問する生徒役
  • 🦜 きなこ(セキセイインコ)… AI で調べものをこなす解説役。やさしく深掘りして教える先生役

この記事は2匹の掛け合いを書き起こした形式です。発言の先頭にいる絵文字+名前が話者にゃ。

はじめに

🐹 もっちー「きなこ、最近ネットで「64.3%」って数字がバズってるけど、あれなんなの?」

🦜 きなこ「AnthropicがClaude Opus 4.7っていう新しいAIモデルを出したの。」

🦜 きなこ「そのモデルがSWE-bench Proっていうテストで64.3%を叩き出したの。」

🐹 もっちー「64%って、テストの点数で言ったら赤点すれすれじゃない?なにがすごいの?」

🐹 もっちー「Anthropicって確か、前にも動画で紹介したAI安全性を重視してる会社だよね?」

🦜 きなこ「それがね、学校のテストとは全然違う。プロのエンジニアが数時間かかるような仕事を解かせるテストなの。」

🦜 きなこ「2026年4月16日にリリースされて、API、Amazon Bedrock、Google Cloud、全部で使えるの。」

🐹 もっちー「えっ、プロの仕事をAIにやらせるテスト?」

🦜 きなこ「GitHub Copilotにも同日ロールアウトされて、開発者はすぐ使えるようになったの。」

🦜 きなこ「そう。で、その6割を超えたってことは、数字が上がっただけの話じゃないの。」

🦜 きなこ「もっちーの学校のテストとは次元が違うからね。」

🦜 きなこ「AIに本当の仕事を任せられるかどうか、その境界線を超えた瞬間なんだよ。」

🐹 もっちー「なんかすごそう!じゃあそのテスト、詳しく教えてよ!」

SWE-bench Proとは何か

SWE-benchの歴史タイムライン。2023年プリンストン大学→2025年Scale AI Pro版

🦜 きなこ「SWE-benchの歴史を少し話すね。もともと2023年にプリンストン大学の研究者が作ったベンチマークなの。」

🦜 きなこ「それをScale AIが発展させて、より実践的で汚染に強いPro版を2025年に作ったの。」

「SWE-bench Pro」の文字と「Software Engineering Benchmark」の展開表示

🦜 きなこ「まずSWE-bench Proの説明をするね。SWEはソフトウェアエンジニアリングの略。」

GitHubのバグ報告画面のイラスト。赤いバグアイコン

🦜 きなこ「Scale AIが作ったベンチマークで、実際のGitHubリポジトリの本物のバグをAIに修正させるテストなの。」

車のスピードメーターとAIのスコアボードの対比イラスト

🐹 もっちー「ベンチマークっていうと、車のエンジンの馬力テストみたいなもの?」

🐹 もっちー「本物のバグ?サンプル問題とかじゃなくて?」

🦜 きなこ「近いかも。馬力テストが車の性能を測るように、SWE-bench ProはAIのコーディング力を測るテストなの。」

「1,865問」「41リポジトリ」のインフォグラフィック

🦜 きなこ「そう、実際に現場で起きたバグ。問題数は1,865問、対象のリポジトリは41個もある。」

コードエディタの画面。複数ファイルタブと「平均107行」のテキスト

🦜 きなこ「しかも修正に必要なコードは平均107行で、4つ以上のファイルにまたがる。」

4つのプログラミング言語ロゴを並べた図

🦜 きなこ「しかもPython、Go、TypeScript、JavaScriptの4言語にまたがるの。」

🐹 もっちー「107行って、結構な量だよね。1行2行の簡単な直しじゃないんだ。」

時計のアイコンと「数時間〜数日」のテキスト

🦜 きなこ「プロのエンジニアでも数時間、場合によっては数日かかるレベルの問題なんだよ。」

もっちーの頭上にひらめきマーク

🐹 もっちー「つまり、本物のエンジニアの仕事をどれだけ解けるかのテストってことか。」

🦜 きなこ「そうそう、まさにそれ。よくわかったね。」

「SWE-bench Verified」→「SWE-bench Pro」の矢印付き遷移図

🦜 きなこ「で、実は以前はSWE-bench Verifiedっていう別のテストが使われてたの。」

OpenAIのロゴと「非推奨」のスタンプマーク

🦜 きなこ「でもOpenAIが「もうVerifiedは信頼できない」って公式に非推奨を宣言したの。」

🐹 もっちー「え、なんで?」

「59.4%に欠陥」のテキスト

🦜 きなこ「調査したテストの約6割に不備が見つかって、答えが学習データに漏れてた。」

🐹 もっちー「でもSWE-bench Proは大丈夫なの?同じことにならない?」

「データ汚染」の警告アイコンとテストデータ→学習データの矢印イラスト

🦜 きなこ「テストの答えがAIの学習データに混入してた、いわゆるデータ汚染が確認されたの。」

GPLライセンスのアイコンと盾のマーク

🦜 きなこ「Proは対策がすごいの。コピーレフトライセンスのコードを使って法的に学習データへの混入を防いでる。」

🐹 もっちー「6割!?それはもうテストとして成り立ってないじゃん!」

「非公開コード」の鍵マーク

🦜 きなこ「さらにスタートアップから購入した非公開コードも含まれてるから、AIが事前に見てることがないの。」

SWE-bench Proのロゴに「業界新標準」のバッジ

🦜 きなこ「だからSWE-bench Proが新しい業界標準になった。汚染対策がしっかりしてるんだよ。」

リーダーボード表示。Opus 4.7が64.3%で1位、GPT-5.4が57.7%、Gemini 3.1 Proが54.2%

🦜 きなこ「そのProで、Opus 4.7は一般公開モデルの中でぶっちぎりの1位。」

「53.4%→64.3% +10.9pt」の上昇グラフアニメーション

🐹 もっちー「前のバージョンから10ポイント以上アップしてるやん!それはすごいわ!」

Opus 4.7を定義する4つの進化

「4つの進化」テキストと4つのアイコン

🦜 きなこ「じゃあ、64.3%を叩き出した技術的な中身を見ていこう。」

🦜 きなこ「Opus 4.7は単にスケーリングで良くなったわけじゃなくて、4つの直交する軸で改善されてるの。」

🦜 きなこ「Opus 4.7には大きく4つの改善があるの。」

「進化①: ビジョン3倍解像度」テキストと目のアイコン

🦜 きなこ「まず1つ目、ビジョンの3倍解像度化。」

🐹 もっちー「3倍?目が良くなったってこと?」

「長辺1,568px → 2,576px(約3.3倍)」の比較図

🦜 きなこ「そう。画像の最大サイズが長辺2,576ピクセルまで対応したの。」

ダッシュボード画面のスクリーンショットと拡大イメージ

🦜 きなこ「画面の細かい文字やボタンまでちゃんと読めるようになったの。」

「57.7% → 79.5%(+21.8pt)」の棒グラフ

🦜 きなこ「Visual Navigationっていう指標では57.7%から79.5%に跳ね上がった。」

🐹 もっちー「プラス21.8ポイント!それだけで結構すごくない?」

XBOW社のロゴイメージ

🦜 きなこ「さらにすごいのが、セキュリティ企業XBOWの社内テスト。」

「XBOW視覚精度: 54.5% → 98.5%」の大きな数字表示

🦜 きなこ「視覚精度が54.5%から98.5%になったの。ほぼ完璧よ。」

🐹 もっちー「54から98!?ほぼ満点やん!」

「進化②: Self-Verification(自己検証)」テキスト

🦜 きなこ「2つ目がSelf-Verification、自己検証ね。」

🐹 もっちー「自己検証?嘘つかなくなったってこと?」

もっちーが作文を見直しているイラスト

🐹 もっちー「自己検証って、ぼくが作文を提出する前に先生に言われなくても見直すみたいなこと?」

AIが自分の回答を見直して修正するイラスト

🦜 きなこ「正確に言うと、間違いに気づく力が上がったの。」

🦜 きなこ「まさにそれ!自分から見直して間違いを直せるようになったの。いい例えだね。」

「生成 → 検証 → 報告」の3ステップフロー図

🦜 きなこ「答えを出す前に、自分で出力を検証してから報告するようになったの。」

Hex社のロゴとデータ分析のイメージ

🦜 きなこ「データ分析のHex社が面白い報告をしてるの。」

「データ欠損時: ×でっち上げ → ○正直に報告」の比較図

🦜 きなこ「データが欠けてる時に、それっぽい答えをでっち上げず正直に報告するって。」

🐹 もっちー「知ったかぶりしなくなったのか。それ大事だね。」

Rustのロゴと音声合成エンジンのイラスト

🦜 きなこ「ある企業ではOpus 4.7がRustで音声合成エンジンを自律的にゼロから構築して、」

「進化③: xhigh effort」テキストとゲージアイコン

🦜 きなこ「3つ目がxhighっていう新しい思考レベルの追加。」

自己検証フローの図解

🦜 きなこ「さらに自分で音声認識に通して品質チェックまでしたって報告されてるの。」

🐹 もっちー「えーっと、highとmaxの間?どういうこと?」

🐹 もっちー「自分で作って自分でテストするの!?もう一人前のエンジニアやん!」

テスト用紙の見直しイメージ

🦜 きなこ「テストの見直し時間に例えるとわかりやすいかな。」

各レベルの見直しイメージを並べた比較イラスト

🦜 きなこ「lowは見直しなし、highはざっと確認、xhighはじっくり見直し、maxは全問解き直し。」

Claude Codeのインターフェース画面

🦜 きなこ「しかもClaude Codeっていう開発者向けツールでは、このxhighがデフォルトになったの。」

xhigh(100k) > Opus 4.6 max(200k) の比較図

🦜 きなこ「しかもxhighは100kトークンで、前世代のmaxの200kより高性能なの。」

🐹 もっちー「つまり開発者は何もしなくても、いい感じに深く考えてくれるってことか。」

🐹 もっちー「半分の時間でいい点取れるってこと?それは賢いわ。」

「進化④: Adaptive Thinking」テキストと脳のアイコン

🦜 きなこ「そして4つ目がAdaptive Thinking。適応的思考ね。」

簡単な質問と難しい質問の思考バブル対比図

🦜 きなこ「簡単な質問にはサクッと、難しい質問にはじっくり考える。自動で調整するの。」

🐹 もっちー「省エネにもなるし、難しい問題にも全力出せるってことだよね。」

🦜 きなこ「もっちー、今の理解すごくいいよ。まさにその通り。」

4つの進化アイコンが組み合わさるイメージ

🦜 きなこ「この4つが組み合わさって、AIが最後まで仕事を完遂できる確率がグンと上がったの。」

ベンチマークだけじゃない — 企業の実測データ

「ベンチマーク vs 実測データ」の対比イメージ

🦜 きなこ「でもベンチマークの数字だけだと「本当に使えるの?」って思うよね。」

🐹 もっちー「そうそう。テストの点が良くても仕事できるかは別だもんね。」

「ベンチマーク番長」のコミカルなイラスト

🦜 きなこ「AIの世界では「ベンチマーク番長」って言葉があってね。テストだけ点が高いけど実務では使えないモデルのこと。」

Cursorのロゴ

🦜 きなこ「だから実際に使った企業のデータを見ていくね。まずCursor。」

🐹 もっちー「テストだけできる優等生タイプか。クラスに一人はいるやつ。」

「CursorBench: 58% → 70%(+12pt)」の棒グラフ

🦜 きなこ「CursorBenchで58%から70%に跳ね上がった。プラス12ポイントよ。」

🦜 きなこ「でもOpus 4.7は実戦でもちゃんと結果を出してるの。その証拠を見ていくね。」

楽天ロゴと「本番タスク解決数: 3倍」のインフォグラフィック

🦜 きなこ「次が楽天。社内のSWE-Benchで本番タスクの解決数がなんと3倍。」

Warpロゴとバグ修正のイラスト

🦜 きなこ「ターミナルアプリのWarp社は、Opus 4.6が解けなかった競合状態バグをOpus 4.7が修正したって。」

🐹 もっちー「3倍!?楽天って日本の会社やん!めっちゃ身近やん!」

🐹 もっちー「前のバージョンが無理だったやつを解けるようになったのか。進化がわかりやすい。」

Devinのロゴと時計アニメーション

🦜 きなこ「Devinっていう自律型AIエージェントでは、何時間も一貫して自律作業ができるようになった。」

CodeRabbitロゴと「リコール +10%以上」

🦜 きなこ「コードレビューのCodeRabbitはリコールが10%以上改善。」

Notionロゴと「+14%改善」「エラー1/3」

🦜 きなこ「Notionは14%改善で、ツールのエラーが3分の1に減ったの。」

🐹 もっちー「暗示的なニーズテストに合格って、言われなくても察するってこと?」

ユーザーの表面的なリクエストとAIが推測する本当のニーズ

🦜 きなこ「そう。ユーザーが明示的に言ってないけど本当はやってほしいことを推測できるの。」

「4.6: 見逃し → 4.7: 発見!」のバグ発見イラスト

🦜 きなこ「そしてAnthropic自身の内部テストで、Opus 4.6が見つけられなかったバグを4.7が発見したの。」

「無限ループ問題: ほぼ解消」のテキスト

🦜 きなこ「Genspark社も面白い報告をしてて、18回のやり取りに1回起きてた無限ループ問題がほぼ解消したの。」

Factory社のロゴと「+10〜15%」の表示

🦜 きなこ「エンタープライズ自動化のFactory社はタスク成功率が10から15%向上したと報告してるの。」

🐹 もっちー「めっちゃすごいやん!人間が何人もチェックして見つけられへんかったバグやで!?」

Databricksロゴと「誤答21%減」のグラフ

🦜 きなこ「DatabricksのOfficeQA Proでは誤答が21%減って、企業文書分析で最強のClaudeモデルだって。」

企業ロゴ一覧とイコールマーク

🦜 きなこ「ベンチマークの数字が、現場でもちゃんと再現されてるってことだよ。」

🦜 きなこ「一つのテストだけじゃなくて、これだけ多くの分野で一貫して改善が確認されたのは本当にすごいことなの。」

競合比較とMythosの影

🐹 もっちー「ところでさ、Opus 4.6からたった2ヶ月でこんなに進化したの?」

競合モデル比較表。Opus 4.7/GPT-5.4/Gemini 3.1 Pro/GPT-5.5のスコアと価格

🦜 きなこ「ここまでOpus 4.7のすごさを見てきたけど、じゃあ競合と比べてどうなのか整理するね」

Opus 4.6(2月)→ Opus 4.7(4月)のタイムライン

🦜 きなこ「そう、AnthropicはOpus系で約2ヶ月の更新サイクルを維持してるの。競争が激しいからね。」

🦜 きなこ「ただGPT-5.4は価格がOpus 4.7の半額だから、コスト重視の現場では有力な選択肢だよ。」

🐹 もっちー「やっぱりGPTとかGeminiとかいるもんね。ぼくでも名前は聞いたことあるよ」

GPT-5.4のスコア57.7%をハイライト。Opus 4.7の64.3%との差を矢印で表示

🦜 きなこ「まずOpenAIのGPT-5.4。SWE-bench Proは57.7%で、Opus 4.7より6.6ポイント低いの」

価格比較。GPT-5.4: $2.50/$15 vs Opus 4.7: $5/$25

🦜 きなこ「ただし価格はGPT-5.4が入力2.5ドル、出力15ドルで、Opus 4.7の半額なんだよね」

Opus 4.7の価格表示。「据え置き $5/$25」

🦜 きなこ「ちなみにOpus 4.7は前世代と同じ価格のまま、入力5ドル、出力25ドル。値上げなしで性能アップなの。」

🐹 もっちー「安いのに性能は負けてるのか。コスパって難しいね」

🐹 もっちー「値段そのままで性能アップ!それはお得やん!」

Gemini 3.1 Proのスコア54.2%を表示。10.1ptの差を強調

🦜 きなこ「次にGoogleのGemini 3.1 Pro。SWE-bench Proは54.2%でOpus 4.7に10.1ポイント差」

BrowseComp比較。GPT-5.4: 89.3% vs Opus 4.7: 79.3%

🦜 きなこ「BrowseCompっていうWeb調査のテストではGPT-5.4が89.3%でOpus 4.7の79.3%を上回ってるの。」

Gemini 3.1 Proの特徴。2Mコンテキストウィンドウをアイコンで強調

🦜 きなこ「Geminiも価格は安いし、200万トークンの文脈長が強みだね」

🐹 もっちー「でもOpus 4.7が出た1週間後にGPT-5.5が出たんでしょ?それはどうなの?」

GPT-5.5 vs Opus 4.7のスコア比較。58.6% vs 64.3%をバーグラフで表示

🦜 きなこ「そこが面白いところなの。GPT-5.5のSWE-bench Proは58.6%。Opus 4.7の64.3%には届かなかった」

Terminal-Bench 2.0の比較。GPT-5.5: 82.7% vs Opus 4.7: 69.4%

🦜 きなこ「ただしTerminal-Benchでは GPT-5.5がリードしてるの。得意分野が違うんだよね」

🐹 もっちー「え、テストによって結果が違うの?どっちが強いかわかんないじゃん」

🦜 きなこ「いい疑問だね。今の業界のまとめ方はこうなの」

棲み分け図。Opus 4.7=コーディング・ツール使用、GPT-5.5=Web調査・長時間自動化

🦜 きなこ「コーディングやツール使用ならOpus 4.7、Web調査や長時間自動化ならGPT-5.5。得意分野が違うの」

🐹 もっちー「なるほど、万能じゃなくて得意分野があるんだね」

「サイバー能力を意図的に削減」のテキスト

🦜 きなこ「Anthropicは「Opus 4.7でサイバー能力を意図的に削減した」と公式に認めてるの。安全のためにね。」

Mythos Previewのスコア77.8%を暗めの演出で表示

🦜 きなこ「でもね、実はAnthropicにはもっと強いモデルがいるの。Mythosプレビューって言うんだけど」

鍵のかかったサーバールーム。「Project Glasswing 限定提供」のテキスト

🦜 きなこ「サイバー攻撃の能力が高すぎて一般公開できないの。約11社だけに限定提供されてる」

Mythos→Opus 4.7→将来の一般公開、というロードマップ図

🦜 きなこ「AnthropicはOpus 4.7を「Mythosを将来広く展開するためのテストベッド」と位置づけてるの」

王冠マークのついたOpus 4.7。「GA(一般提供)モデル最強」のテキスト

🐹 もっちー「つまりもっと強いのがいるけど、一般人が手に入れられるやつではこれが最強ってことか」

64.3%が意味する「委任の閾値」

「64.3%の本当の意味」というタイトルカード

🦜 きなこ「さて、ここからが一番伝えたいこと。64.3%って数字の本当の意味について話すね」

🐹 もっちー「テストの点数が高いってだけじゃないの?」

閾値を超える矢印のイラスト。「監視なしで委任できるレベル」のテキスト

🦜 きなこ「これは「人間が見てなくても、難しいコーディング作業をAIに任せられる閾値」を超えた合図なの」

1年前→現在の進化を示す大きな矢印グラフ

🦜 きなこ「ベンチマークの世界では、1年前のトップモデルのスコアが23%台だったの。そこから40ポイント以上の進化だよ。」

「2024年9月: 23% → 2026年4月: 64.3%」の進化グラフ

🦜 きなこ「ちなみに、1年半前のSWE-bench Proのトップは23%くらいだったの。」

企業実測データの一覧。Cursor/楽天/Devinのスコア改善を並べて表示

🦜 きなこ「さっき紹介した企業データを見ても、単一ベンチマークだけじゃなく異種テストで一貫してるでしょ」

異種企業の改善パターンを一覧表示

🦜 きなこ「証拠は単一のテストじゃなくて、Cursor、楽天、Notion、Devin、XBOWっていう全然違う分野の企業で再現されてるの。」

🐹 もっちー「23%から64%!?1年半で40ポイント以上も上がったの!?」

「Tool→Coworker」の変化を示すイラスト

🦜 きなこ「つまり「道具」が「同僚」になった瞬間なの。Replitは「より良いコワーカー」って表現してる」

「/ultrareview」コマンドのスクリーンショット

🦜 きなこ「あとClaude Codeには新しく/ultrareviewっていうコマンドも追加されたの。」

指数関数的な成長曲線のグラフ

🦜 きなこ「そう。AIのコーディング能力は指数関数的に伸びてるの。止まる気配がないよ。」

AIレビュアーがコードを精査するイメージ

🦜 きなこ「専用のレビューセッションが立ち上がって、人間のレビュアーみたいにバグを洗い出してくれるの。」

auto modeの説明画面

🦜 きなこ「あとMaxプランのユーザー向けにauto modeも追加されたの。中断なしで長時間タスクを実行できる。」

🐹 もっちー「道具から同僚!それはすごい変化だね!」

🐹 もっちー「コードを書くだけじゃなくて、レビューまでしてくれるのか。本当に同僚だね。」

注意マーク。「プロンプトの再調整が必要」のテキスト

🦜 きなこ「ただし注意点もあるの。指示を文字通りに解釈しすぎる傾向が強くなって、プロンプトの調整が必要」

トークナイザー変更の図

🦜 きなこ「あとトークナイザーが変わって、同じ文章でも最大35%コストが増える可能性があるの」

BrowseCompのスコア低下を赤字で表示

🦜 きなこ「Web調査系のBrowseCompでは83.7%から79.3%に下がってる。万能ではないよ」

Mythos→一般公開への道筋を示すロードマップ

🦜 きなこ「Mythosプレビューが広く解放される日が「次の閾値」になる。Opus 4.7はその橋渡しなの。」

🐹 もっちー「でもさ、ぼくみたいなプログラミングしない人にも関係あるの?」

🐹 もっちー「次の閾値って、もっとすごいことが起きるってこと?」

スマホアプリ・Webサービスの裏側でAIが動いているイメージ図

🦜 きなこ「もちろん関係あるよ。これからはAIが書いたコードを誰もが使う時代になるの」

「77.8% → 一般公開?」の未来予想図

🦜 きなこ「77.8%のMythosが一般公開されたら、AIコーディングの風景は一変すると思うよ。」

「コード品質向上→アプリ品質向上→ユーザー体験向上」の連鎖図

🦜 きなこ「AIが書くコードの品質が上がるってことは、みんなが使うアプリやサービスの品質も上がるの」

🐹 もっちー「あー、ぼくが使ってるアプリの中身がよくなるってことか。それは嬉しいかも」

飼い主のデスクにAIレビュアーが座っているコミカルなイラスト

🦜 きなこ「そのうち飼い主のコードレビューもAIに全部任せられるようになるかもね」

🐹 もっちー「飼い主、仕事なくなっちゃうじゃん!…あ、でもそしたらもっとぼくと遊んでくれる?」

まとめ

まとめ画面。「Claude Opus 4.7: 64.3%の衝撃」のタイトル

🦜 きなこ「というわけで今回はClaude Opus 4.7のSWE-bench Pro 64.3%について深掘りしたよ」

🐹 もっちー「道具から同僚へ、AIの進化ってほんとに早いんだね」

🦜 きなこ「4つの技術進化と企業データで見てきたけど、AIが「同僚」になる時代はもう始まってるの。」

チャンネル登録ボタンと高評価ボタンのアニメーション

🐹 もっちー「この動画が面白かったらチャンネル登録と高評価お願いします!投げ銭もいただけたらワイ泣くで!」


きなこもっちーのテック深掘り では、AI/LLM を中心としたテック全般をハムスター(🐹 もっちー)とセキセイインコ(🦜 きなこ)の掛け合いで楽しく解説しています。

▶️ 動画で観るClaude Opus 4.7完全解説 — SWE-bench Pro 64.3%の衝撃

👍 この記事が役に立ったら LGTM・ストックしてもらえると励みになります!

📺 チャンネル登録はこちらきなこもっちーのテック深掘り

🔗 他の解説動画も見るきなこもっちーのテック深掘り の動画一覧

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?