📺 この記事は YouTube チャンネル きなこもっちーのテック深掘り の動画解説記事です。
▶️ 動画はこちら → Claude Opus 4.7完全解説 — SWE-bench Pro 64.3%の衝撃
🐹🦜 この記事に登場する2匹
- 🐹 もっちー(ハムスター)… AI はまだ勉強中。「それどういうこと?」と素朴に質問する生徒役
- 🦜 きなこ(セキセイインコ)… AI で調べものをこなす解説役。やさしく深掘りして教える先生役
この記事は2匹の掛け合いを書き起こした形式です。発言の先頭にいる絵文字+名前が話者にゃ。
はじめに
🐹 もっちー「きなこ、最近ネットで「64.3%」って数字がバズってるけど、あれなんなの?」
🦜 きなこ「AnthropicがClaude Opus 4.7っていう新しいAIモデルを出したの。」
🦜 きなこ「そのモデルがSWE-bench Proっていうテストで64.3%を叩き出したの。」
🐹 もっちー「64%って、テストの点数で言ったら赤点すれすれじゃない?なにがすごいの?」
🐹 もっちー「Anthropicって確か、前にも動画で紹介したAI安全性を重視してる会社だよね?」
🦜 きなこ「それがね、学校のテストとは全然違う。プロのエンジニアが数時間かかるような仕事を解かせるテストなの。」
🦜 きなこ「2026年4月16日にリリースされて、API、Amazon Bedrock、Google Cloud、全部で使えるの。」
🐹 もっちー「えっ、プロの仕事をAIにやらせるテスト?」
🦜 きなこ「GitHub Copilotにも同日ロールアウトされて、開発者はすぐ使えるようになったの。」
🦜 きなこ「そう。で、その6割を超えたってことは、数字が上がっただけの話じゃないの。」
🦜 きなこ「もっちーの学校のテストとは次元が違うからね。」
🦜 きなこ「AIに本当の仕事を任せられるかどうか、その境界線を超えた瞬間なんだよ。」
🐹 もっちー「なんかすごそう!じゃあそのテスト、詳しく教えてよ!」
SWE-bench Proとは何か
🦜 きなこ「SWE-benchの歴史を少し話すね。もともと2023年にプリンストン大学の研究者が作ったベンチマークなの。」
🦜 きなこ「それをScale AIが発展させて、より実践的で汚染に強いPro版を2025年に作ったの。」
🦜 きなこ「まずSWE-bench Proの説明をするね。SWEはソフトウェアエンジニアリングの略。」
🦜 きなこ「Scale AIが作ったベンチマークで、実際のGitHubリポジトリの本物のバグをAIに修正させるテストなの。」
🐹 もっちー「ベンチマークっていうと、車のエンジンの馬力テストみたいなもの?」
🐹 もっちー「本物のバグ?サンプル問題とかじゃなくて?」
🦜 きなこ「近いかも。馬力テストが車の性能を測るように、SWE-bench ProはAIのコーディング力を測るテストなの。」
🦜 きなこ「そう、実際に現場で起きたバグ。問題数は1,865問、対象のリポジトリは41個もある。」
🦜 きなこ「しかも修正に必要なコードは平均107行で、4つ以上のファイルにまたがる。」
🦜 きなこ「しかもPython、Go、TypeScript、JavaScriptの4言語にまたがるの。」
🐹 もっちー「107行って、結構な量だよね。1行2行の簡単な直しじゃないんだ。」
🦜 きなこ「プロのエンジニアでも数時間、場合によっては数日かかるレベルの問題なんだよ。」
🐹 もっちー「つまり、本物のエンジニアの仕事をどれだけ解けるかのテストってことか。」
🦜 きなこ「そうそう、まさにそれ。よくわかったね。」
🦜 きなこ「で、実は以前はSWE-bench Verifiedっていう別のテストが使われてたの。」
🦜 きなこ「でもOpenAIが「もうVerifiedは信頼できない」って公式に非推奨を宣言したの。」
🐹 もっちー「え、なんで?」
🦜 きなこ「調査したテストの約6割に不備が見つかって、答えが学習データに漏れてた。」
🐹 もっちー「でもSWE-bench Proは大丈夫なの?同じことにならない?」
🦜 きなこ「テストの答えがAIの学習データに混入してた、いわゆるデータ汚染が確認されたの。」
🦜 きなこ「Proは対策がすごいの。コピーレフトライセンスのコードを使って法的に学習データへの混入を防いでる。」
🐹 もっちー「6割!?それはもうテストとして成り立ってないじゃん!」
🦜 きなこ「さらにスタートアップから購入した非公開コードも含まれてるから、AIが事前に見てることがないの。」
🦜 きなこ「だからSWE-bench Proが新しい業界標準になった。汚染対策がしっかりしてるんだよ。」
🦜 きなこ「そのProで、Opus 4.7は一般公開モデルの中でぶっちぎりの1位。」
🐹 もっちー「前のバージョンから10ポイント以上アップしてるやん!それはすごいわ!」
Opus 4.7を定義する4つの進化
🦜 きなこ「じゃあ、64.3%を叩き出した技術的な中身を見ていこう。」
🦜 きなこ「Opus 4.7は単にスケーリングで良くなったわけじゃなくて、4つの直交する軸で改善されてるの。」
🦜 きなこ「Opus 4.7には大きく4つの改善があるの。」
🦜 きなこ「まず1つ目、ビジョンの3倍解像度化。」
🐹 もっちー「3倍?目が良くなったってこと?」
🦜 きなこ「そう。画像の最大サイズが長辺2,576ピクセルまで対応したの。」
🦜 きなこ「画面の細かい文字やボタンまでちゃんと読めるようになったの。」
🦜 きなこ「Visual Navigationっていう指標では57.7%から79.5%に跳ね上がった。」
🐹 もっちー「プラス21.8ポイント!それだけで結構すごくない?」
🦜 きなこ「さらにすごいのが、セキュリティ企業XBOWの社内テスト。」
🦜 きなこ「視覚精度が54.5%から98.5%になったの。ほぼ完璧よ。」
🐹 もっちー「54から98!?ほぼ満点やん!」
🦜 きなこ「2つ目がSelf-Verification、自己検証ね。」
🐹 もっちー「自己検証?嘘つかなくなったってこと?」
🐹 もっちー「自己検証って、ぼくが作文を提出する前に先生に言われなくても見直すみたいなこと?」
🦜 きなこ「正確に言うと、間違いに気づく力が上がったの。」
🦜 きなこ「まさにそれ!自分から見直して間違いを直せるようになったの。いい例えだね。」
🦜 きなこ「答えを出す前に、自分で出力を検証してから報告するようになったの。」
🦜 きなこ「データ分析のHex社が面白い報告をしてるの。」
🦜 きなこ「データが欠けてる時に、それっぽい答えをでっち上げず正直に報告するって。」
🐹 もっちー「知ったかぶりしなくなったのか。それ大事だね。」
🦜 きなこ「ある企業ではOpus 4.7がRustで音声合成エンジンを自律的にゼロから構築して、」
🦜 きなこ「3つ目がxhighっていう新しい思考レベルの追加。」
🦜 きなこ「さらに自分で音声認識に通して品質チェックまでしたって報告されてるの。」
🐹 もっちー「えーっと、highとmaxの間?どういうこと?」
🐹 もっちー「自分で作って自分でテストするの!?もう一人前のエンジニアやん!」
🦜 きなこ「テストの見直し時間に例えるとわかりやすいかな。」
🦜 きなこ「lowは見直しなし、highはざっと確認、xhighはじっくり見直し、maxは全問解き直し。」
🦜 きなこ「しかもClaude Codeっていう開発者向けツールでは、このxhighがデフォルトになったの。」
🦜 きなこ「しかもxhighは100kトークンで、前世代のmaxの200kより高性能なの。」
🐹 もっちー「つまり開発者は何もしなくても、いい感じに深く考えてくれるってことか。」
🐹 もっちー「半分の時間でいい点取れるってこと?それは賢いわ。」
🦜 きなこ「そして4つ目がAdaptive Thinking。適応的思考ね。」
🦜 きなこ「簡単な質問にはサクッと、難しい質問にはじっくり考える。自動で調整するの。」
🐹 もっちー「省エネにもなるし、難しい問題にも全力出せるってことだよね。」
🦜 きなこ「もっちー、今の理解すごくいいよ。まさにその通り。」
🦜 きなこ「この4つが組み合わさって、AIが最後まで仕事を完遂できる確率がグンと上がったの。」
ベンチマークだけじゃない — 企業の実測データ
🦜 きなこ「でもベンチマークの数字だけだと「本当に使えるの?」って思うよね。」
🐹 もっちー「そうそう。テストの点が良くても仕事できるかは別だもんね。」
🦜 きなこ「AIの世界では「ベンチマーク番長」って言葉があってね。テストだけ点が高いけど実務では使えないモデルのこと。」
🦜 きなこ「だから実際に使った企業のデータを見ていくね。まずCursor。」
🐹 もっちー「テストだけできる優等生タイプか。クラスに一人はいるやつ。」
🦜 きなこ「CursorBenchで58%から70%に跳ね上がった。プラス12ポイントよ。」
🦜 きなこ「でもOpus 4.7は実戦でもちゃんと結果を出してるの。その証拠を見ていくね。」
🦜 きなこ「次が楽天。社内のSWE-Benchで本番タスクの解決数がなんと3倍。」
🦜 きなこ「ターミナルアプリのWarp社は、Opus 4.6が解けなかった競合状態バグをOpus 4.7が修正したって。」
🐹 もっちー「3倍!?楽天って日本の会社やん!めっちゃ身近やん!」
🐹 もっちー「前のバージョンが無理だったやつを解けるようになったのか。進化がわかりやすい。」
🦜 きなこ「Devinっていう自律型AIエージェントでは、何時間も一貫して自律作業ができるようになった。」
🦜 きなこ「コードレビューのCodeRabbitはリコールが10%以上改善。」
🦜 きなこ「Notionは14%改善で、ツールのエラーが3分の1に減ったの。」
🐹 もっちー「暗示的なニーズテストに合格って、言われなくても察するってこと?」
🦜 きなこ「そう。ユーザーが明示的に言ってないけど本当はやってほしいことを推測できるの。」
🦜 きなこ「そしてAnthropic自身の内部テストで、Opus 4.6が見つけられなかったバグを4.7が発見したの。」
🦜 きなこ「Genspark社も面白い報告をしてて、18回のやり取りに1回起きてた無限ループ問題がほぼ解消したの。」
🦜 きなこ「エンタープライズ自動化のFactory社はタスク成功率が10から15%向上したと報告してるの。」
🐹 もっちー「めっちゃすごいやん!人間が何人もチェックして見つけられへんかったバグやで!?」
🦜 きなこ「DatabricksのOfficeQA Proでは誤答が21%減って、企業文書分析で最強のClaudeモデルだって。」
🦜 きなこ「ベンチマークの数字が、現場でもちゃんと再現されてるってことだよ。」
🦜 きなこ「一つのテストだけじゃなくて、これだけ多くの分野で一貫して改善が確認されたのは本当にすごいことなの。」
競合比較とMythosの影
🐹 もっちー「ところでさ、Opus 4.6からたった2ヶ月でこんなに進化したの?」
🦜 きなこ「ここまでOpus 4.7のすごさを見てきたけど、じゃあ競合と比べてどうなのか整理するね」
🦜 きなこ「そう、AnthropicはOpus系で約2ヶ月の更新サイクルを維持してるの。競争が激しいからね。」
🦜 きなこ「ただGPT-5.4は価格がOpus 4.7の半額だから、コスト重視の現場では有力な選択肢だよ。」
🐹 もっちー「やっぱりGPTとかGeminiとかいるもんね。ぼくでも名前は聞いたことあるよ」
🦜 きなこ「まずOpenAIのGPT-5.4。SWE-bench Proは57.7%で、Opus 4.7より6.6ポイント低いの」
🦜 きなこ「ただし価格はGPT-5.4が入力2.5ドル、出力15ドルで、Opus 4.7の半額なんだよね」
🦜 きなこ「ちなみにOpus 4.7は前世代と同じ価格のまま、入力5ドル、出力25ドル。値上げなしで性能アップなの。」
🐹 もっちー「安いのに性能は負けてるのか。コスパって難しいね」
🐹 もっちー「値段そのままで性能アップ!それはお得やん!」
🦜 きなこ「次にGoogleのGemini 3.1 Pro。SWE-bench Proは54.2%でOpus 4.7に10.1ポイント差」
🦜 きなこ「BrowseCompっていうWeb調査のテストではGPT-5.4が89.3%でOpus 4.7の79.3%を上回ってるの。」
🦜 きなこ「Geminiも価格は安いし、200万トークンの文脈長が強みだね」
🐹 もっちー「でもOpus 4.7が出た1週間後にGPT-5.5が出たんでしょ?それはどうなの?」
🦜 きなこ「そこが面白いところなの。GPT-5.5のSWE-bench Proは58.6%。Opus 4.7の64.3%には届かなかった」
🦜 きなこ「ただしTerminal-Benchでは GPT-5.5がリードしてるの。得意分野が違うんだよね」
🐹 もっちー「え、テストによって結果が違うの?どっちが強いかわかんないじゃん」
🦜 きなこ「いい疑問だね。今の業界のまとめ方はこうなの」
🦜 きなこ「コーディングやツール使用ならOpus 4.7、Web調査や長時間自動化ならGPT-5.5。得意分野が違うの」
🐹 もっちー「なるほど、万能じゃなくて得意分野があるんだね」
🦜 きなこ「Anthropicは「Opus 4.7でサイバー能力を意図的に削減した」と公式に認めてるの。安全のためにね。」
🦜 きなこ「でもね、実はAnthropicにはもっと強いモデルがいるの。Mythosプレビューって言うんだけど」
🦜 きなこ「サイバー攻撃の能力が高すぎて一般公開できないの。約11社だけに限定提供されてる」
🦜 きなこ「AnthropicはOpus 4.7を「Mythosを将来広く展開するためのテストベッド」と位置づけてるの」
🐹 もっちー「つまりもっと強いのがいるけど、一般人が手に入れられるやつではこれが最強ってことか」
64.3%が意味する「委任の閾値」
🦜 きなこ「さて、ここからが一番伝えたいこと。64.3%って数字の本当の意味について話すね」
🐹 もっちー「テストの点数が高いってだけじゃないの?」
🦜 きなこ「これは「人間が見てなくても、難しいコーディング作業をAIに任せられる閾値」を超えた合図なの」
🦜 きなこ「ベンチマークの世界では、1年前のトップモデルのスコアが23%台だったの。そこから40ポイント以上の進化だよ。」
🦜 きなこ「ちなみに、1年半前のSWE-bench Proのトップは23%くらいだったの。」
🦜 きなこ「さっき紹介した企業データを見ても、単一ベンチマークだけじゃなく異種テストで一貫してるでしょ」
🦜 きなこ「証拠は単一のテストじゃなくて、Cursor、楽天、Notion、Devin、XBOWっていう全然違う分野の企業で再現されてるの。」
🐹 もっちー「23%から64%!?1年半で40ポイント以上も上がったの!?」
🦜 きなこ「つまり「道具」が「同僚」になった瞬間なの。Replitは「より良いコワーカー」って表現してる」
🦜 きなこ「あとClaude Codeには新しく/ultrareviewっていうコマンドも追加されたの。」
🦜 きなこ「そう。AIのコーディング能力は指数関数的に伸びてるの。止まる気配がないよ。」
🦜 きなこ「専用のレビューセッションが立ち上がって、人間のレビュアーみたいにバグを洗い出してくれるの。」
🦜 きなこ「あとMaxプランのユーザー向けにauto modeも追加されたの。中断なしで長時間タスクを実行できる。」
🐹 もっちー「道具から同僚!それはすごい変化だね!」
🐹 もっちー「コードを書くだけじゃなくて、レビューまでしてくれるのか。本当に同僚だね。」
🦜 きなこ「ただし注意点もあるの。指示を文字通りに解釈しすぎる傾向が強くなって、プロンプトの調整が必要」
🦜 きなこ「あとトークナイザーが変わって、同じ文章でも最大35%コストが増える可能性があるの」
🦜 きなこ「Web調査系のBrowseCompでは83.7%から79.3%に下がってる。万能ではないよ」
🦜 きなこ「Mythosプレビューが広く解放される日が「次の閾値」になる。Opus 4.7はその橋渡しなの。」
🐹 もっちー「でもさ、ぼくみたいなプログラミングしない人にも関係あるの?」
🐹 もっちー「次の閾値って、もっとすごいことが起きるってこと?」
🦜 きなこ「もちろん関係あるよ。これからはAIが書いたコードを誰もが使う時代になるの」
🦜 きなこ「77.8%のMythosが一般公開されたら、AIコーディングの風景は一変すると思うよ。」
🦜 きなこ「AIが書くコードの品質が上がるってことは、みんなが使うアプリやサービスの品質も上がるの」
🐹 もっちー「あー、ぼくが使ってるアプリの中身がよくなるってことか。それは嬉しいかも」
🦜 きなこ「そのうち飼い主のコードレビューもAIに全部任せられるようになるかもね」
🐹 もっちー「飼い主、仕事なくなっちゃうじゃん!…あ、でもそしたらもっとぼくと遊んでくれる?」
まとめ
🦜 きなこ「というわけで今回はClaude Opus 4.7のSWE-bench Pro 64.3%について深掘りしたよ」
🐹 もっちー「道具から同僚へ、AIの進化ってほんとに早いんだね」
🦜 きなこ「4つの技術進化と企業データで見てきたけど、AIが「同僚」になる時代はもう始まってるの。」
🐹 もっちー「この動画が面白かったらチャンネル登録と高評価お願いします!投げ銭もいただけたらワイ泣くで!」
きなこもっちーのテック深掘り では、AI/LLM を中心としたテック全般をハムスター(🐹 もっちー)とセキセイインコ(🦜 きなこ)の掛け合いで楽しく解説しています。
▶️ 動画で観る → Claude Opus 4.7完全解説 — SWE-bench Pro 64.3%の衝撃
👍 この記事が役に立ったら LGTM・ストックしてもらえると励みになります!
📺 チャンネル登録はこちら → きなこもっちーのテック深掘り
🔗 他の解説動画も見る → きなこもっちーのテック深掘り の動画一覧




























































































