Anthropic が「一般公開しない」と決めた AI モデルの話

Posted at 2026-04-09

はじめに

Anthropic が新しいモデルを出した、というニュース自体はよくあります。でも今回はちょっと違って、「このモデルは一般公開しません」 と明言してリリースしました。今までこんなことはなかったらしいです。

出すのに使えないとはなんぞやということで調べてみました。

2026年4月7日に Anthropic が発表した新モデルです。名前は Claude Mythos Preview。

通常の Claude と何が違うかというと、サイバーセキュリティに特化して作られているという点で、普通の会話や文章生成ではなく、「システムの脆弱性を見つけて攻撃する」タスクで異次元の能力を持つらしいです。

一言で言うと、「脆弱性を自分で見つけて、自分で攻略コードを書いて、実際に侵入するまでやる」ができます。

Anthropic 公式の発表によると、Mythos はすでに主要な OS（Windows・macOS・Linux）と主要 Web ブラウザすべてに高深刻度の脆弱性を発見済みとのことで、これだけでもかなりヤバいんですが、一番インパクトがあったのが FreeBSD の件です。

CVE-2026-4747: 17年間誰も気づかなかった FreeBSD のリモートコード実行脆弱性を、Mythos が自律的に発見・攻略コード生成・サーバー完全制御まで実行した。

17年ですよ、生まれた子一人が高校生になります。セキュリティ研究者が世界中にいて、誰も見つけられなかったゼロデイを、AI がひとりで（というか一発で）見つけてしまった。しかも発見で終わらず、実際に「サーバーを完全に制御する」ところまで自動でやっています。

そりゃそうで、悪用されたら終わりです。

Anthropic が言っているのは「防御側のためのモデルとして設計した」ということで、Project Glasswing という名前でセキュリティ研究者向けの限定プログラムを作っています。

参加しているのが Apple・Amazon Web Services・Google・Microsoft・NVIDIA・Cisco・CrowdStrike など12社。要するに「業界の信頼できるプレイヤーだけに渡して、ちゃんと使ってもらう」という方針です。

アクセスするには red.anthropic.com から申請が必要で、一般ユーザーが使える段階にはない。今のところ「将来的に安全に一般展開できる方法を探している」というスタンスです。

正しい判断ではないでしょうか。攻撃側がこのモデルを手に入れたら、今存在するほぼすべてのセキュリティ対策が陳腐化してしまいますしね。

ちょっと前に自分は「Claude Code のエージェントに確認ゲートを設ける」という記事を書きました。AI が git push を勝手にやったり rm -rf を実行したりするのを防ぐための設定の話で、要は「AI に何でも自由にやらせるのは怖い」という内容です。

Mythos の話を聞いて、その文脈がさらに重くなった気がしています。フックで操作を止めるとか、defer で確認するとか、ああいう制御の仕組みって「AI が間違える」ことへの備えとして設計されていましたが、これからは「AI が意図通りに動いたとしてもヤバい」という場面が増えてきます。

AI の能力が上がることと、それを安全に扱う設計が追いつくことは、別の話です。Mythos の一般非公開という判断は、その差を Anthropic 自身が認めたということでもあります。

「一般公開しない」という決断、最初は「もったいない」と思ったんですが、調べると全然もったいなくなかったです。そのくらいの能力があるということなので。

Anthropic が今後どんな条件で Mythos クラスのモデルを一般展開するのかはわかりませんが、「防御側に先に渡して、業界全体の安全水準を上げてから」という順番を守っているのは誠実だと思います。

まあ17年前のゼロデイを一発で見つけるモデルを野に放つより、まず世界中のインフラを先に直しておこう、ということなので、あまりにも賢明な判断です。我々も我々のゼロデイに備えましょう。