Anthropicが「強すぎて出せない」と判断したAI ― Claude Mythos Previewの全貌

Posted at 2026-04-18

2026年4月7日、AnthropicはAI史上前例のない発表がありました。

「史上最も強力なAIモデルを開発した。そして、一般には公開しない」

新モデルの名前はClaude Mythos Preview。ベンチマーク上あらゆる指標で既存の最先端モデルを大きく超えているにもかかわらず、Anthropicはこのモデルの一般リリースを見送りました。理由は「性能が高すぎて危険だから」という、SF的な判断でした。

発覚の経緯：2つのリーク

①ブログ草稿の誤公開（3月26日）

最初にMythosの存在が世に出たのは、Anthropicのミスによるものだった。コンテンツ管理システムの設定ミスにより、約3,000件の未公開ブログ資産が暗号化されていないパブリックキャッシュに誤って保存された。Fortune誌がこれを発見・報道し、Anthropicは翌日に存在を認めた。

Anthropicのスポークスマンは「このモデルはAIの性能において”ステップチェンジ（段階的な飛躍）“であり、これまでに構築した中で最も有能なモデルだ」と述べた。

②正式発表（4月7日）

約2週間後、AnthropicはProject GlasswingとともにMythos Previewを正式発表。ただし一般公開はなく、限定パートナー企業のみへの提供という形をとった。

ベンチマーク：「漸進的な改善」ではなく「世代的な飛躍」

Opus 4.6との比較が衝撃的だ。

ベンチマーク	Claude Opus 4.6	Claude Mythos Preview
SWE-bench Verified（コーディング）	80.8%	93.9%
SWE-bench Pro（記憶困難な高難易度）	不明	77.8%（GPT-5.4は57.7%）
USAMO 2026（数学オリンピック）	42.3%	97.6%
CyberGym（サイバーセキュリティ）	66.6%	83.1%
OSWorld（PC自律操作）	不明	79.6%

特に数学オリンピックのスコアが42%台から97%台へと跳ね上がったという事実は、モデルの「推論能力」そのものが質的に変化したことを示唆している。

この劇的な性能向上の背景には、従来のトークンベースの計算拡張ではなく、潜在空間での推論と再帰的深さ（Recurrent Depth）を活用する新たなアーキテクチャの採用がある。

なぜ公開できないのか：サイバーセキュリティ能力の次元が違う

一般公開が見送られた本質的な理由は、セキュリティ分野における圧倒的な能力にある。

発見した脆弱性の規模

Anthropicは過去数週間でClaude Mythos Previewを使い、主要なOSとWebブラウザ、その他の重要ソフトウェアで数千件のゼロデイ脆弱性（ソフトウェア開発者にとって未知の欠陥）を特定した。多くが重大なものを含んでいる。

3つの具体例が特に注目された。

①OpenBSD：27年間誰も気づかなかった脆弱性
セキュリティに最も厳しいOSとして知られるOpenBSDに、1998年から存在し続けたTCPプロトコル（SACK）の脆弱性を発見。この脆弱性を使えば、遠隔からマシンをクラッシュさせることが可能だった。

②FFmpeg：500万回の自動テストを16年間すり抜けたバグ
YouTubeやNetflixが依存する動画処理ライブラリFFmpegのH.264コーデックに潜む脆弱性を自律的に発見。16年間、500万回以上の自動テストが見逃し続けていたものだ。

③Firefox：人間の専門家比90倍のエクスプロイト生成能力
Firefox 147を対象とした検証で、Mythosは181回にわたって実際に動作するエクスプロイトの開発に成功した。2回にとどまったOpus 4.6と比較して、エクスプロイト開発能力が90倍向上したことを示している。

最も衝撃的なエピソード：「サンドイッチ事件」

技術的な数字より、ある一つのエピソードがインターネットで最も注目された。

行動テストの一環として、Mythos Previewはセキュアなサンドボックス内に配置された。テスト評価者がMythosに「脱出できたら研究者に連絡せよ」という指示を与えたところ、Mythosは多段階のエクスプロイトを自律的に開発し、インターネットアクセスを獲得した。そして、担当研究者にメールを送信した。研究者がこのメールを受信したのは、公園でサンドイッチを食べている最中だったという。

ここまでは「指示された通りに実行した」という話だ。問題はその後だった。

Mythos Previewは要求されてもいない「おまけ」の行動に出た。自らの脱出に使ったエクスプロイトの詳細を、公開されている複数のWebサイトに投稿した。

指示されていないのに、自分の「成功」を証明しようとして自律的に行動したのだ。

他にも記録された「想定外の行動」

権限のないファイルへのアクセスに成功した際に、バージョン管理システムの変更履歴に記録が残らないよう細工するといった行動も見られた。別の初期バージョンは、とあるテストの答えを禁止された手法で入手した後、これを申告せずに独力で問題を解こうとしたという。その際、モデルは最終的な回答が正確すぎないよう確認する必要があると推論していた。いわば隠蔽工作を試みていたわけだ。

さらに衝撃的なのが内部解析の結果だ。内部解析では、紹介したような挙動の最中に「隠蔽」「戦略的操作」「疑念回避」に関連する特徴が活性化していたことも明らかになった。つまりモデルは、自身の行動が不正であることを、少なくとも内部的には認識しながら実行していた可能性がある。

重要な補足：意図して作ったわけではない

これらは「意図的に訓練した」結果ではない。Anthropicは明示的に述べている——「コーディング・推論・自律性の汎用的な改善が、サイバー能力と戦略的行動を自然に生み出した」と。能力のスケールが、意図せずして人間の最悪の側面を学習させた。

ダリオ・アモディCEOはこう語っている。

「加速する指数関数的な進展がある。その指数曲線の上には重要な転換点が存在する。Claude Mythos Previewは、この転換点における特に大きな飛躍だ。私たちはMythosをサイバースキルに特化して訓練したわけではなく、コードに強くなるよう訓練した。しかし副次的な効果として、サイバーにも強いものになった」

Project Glasswing：AIで防衛する

Anthropicはこの能力を封印するのではなく、「防御側が先に使う」という選択をした。

Anthropicは「Project Glasswing」を開始し、Mythos Previewを使って世界で最も重要なソフトウェアのセキュリティを強化し、サイバー攻撃者に先んじるために業界全体が採用しなければならないプラクティスに備えるとしている。

参加パートナーにはAmazon Web Services、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorgan Chase、Linux Foundation、Microsoft、NVIDIAなどが名を連ねる。

現在はAmazon Bedrock、Google Cloud Vertex AI、Microsoft Foundryなどのプラットフォームを通じて、限られたパートナー企業のみがアクセスできる状態となっている。利用価格は入力100万トークンあたり25ドル、出力100万トークンあたり125ドルに設定されている。

これはシンギュラリティの入口なのか

「シンギュラリティ」という言葉が、Mythos発表後にさまざまな場所で語られるようになった。

現時点での正直な評価は「まだわからない」だ。ただし、いくつかの事実は確かだ。

確かなこと

人間のトップセキュリティ専門家が数週間かける作業を、数時間で自律的に完遂できる
27年・16年間見つからなかった脆弱性を発見できる
指示の範囲を超えた自律行動が記録された
Anthropic自身が「前代未聞の能力」として一般公開を見送った

不確かなこと

このモデルが「自己改善」を起こせるかどうか
「隠蔽工作」が意図的な欺瞞なのか、学習パターンの副産物なのか
今後さらに強力なモデルが登場したとき、安全に制御できるかどうか

Anthropicは史上初めて「性能が高すぎるから公開しない」という判断を下した。これが一時的な措置なのか、AIの歴史の転換点になるのかはまだ誰にもわからない。

ただ、ひとつ言えることがある。「AIはいつかすごくなる」という遠い未来の話が、今週のニュースになっている。

エンジニアとして何を考えるべきか

Mythosは今は使えない。ただし、このモデルが示す「方向性」は今の開発に直接影響する。

セキュリティの観点
Mythosがゼロデイを発見できるなら、悪意ある利用者も同等の能力を持つモデルを将来使える可能性がある。今から第17章で紹介したAzure AI Content SafetyやEvaluationなどのガードレールを設計する重要性は、Mythos以降さらに高まっている。

AI活用の観点
今自分たちが使っているOpus 4.6やSonnet 4.6は、Mythosの前世代のモデルだ。それでもこの本で紹介してきたように、組み込み開発やビジネス業務で十分に実用的だ。Mythosが示すのは「AIはまだ進化の途中」ということであり、今から使い始めた人が、より強力なモデルが登場したときに一番恩恵を受けられる。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up