はじめに
OpenMythosをROCmに移植してみたのでその時に感じた疑問や、なんとなくこうなんじゃね?感をまとめてみた。
これをスライドにしたものはSpeaker Deckにアップロードしてるので、好きなほうを参照してください。
OpenMythosはこっち
前提:「Mythos」とは何か
Anthropic が 2026年4月7日に正式発表した、実在するフロンティア AI モデル「Capybara」(内部コードネーム「Mythos」)
- Opusを超える新たなモデルティアとして位置づけられた Anthropic 史上最強のモデルです
- 2026年3月26日にメディア(Fortune)経由でリークされ、同年4月7日に正式発表されました
-
Project Glasswing のもとで限定公開されており、一般・公開 API では利用できません
- 参加12社:AWS、Apple、Google、Microsoft、NVIDIA、Broadcom、Cisco、CrowdStrike、JPMorganChase、Linux Foundation、Palo Alto Networks など + 40以上の追加組織
- サイバーセキュリティ能力が突出:Firefox の脆弱性 271件を自律的に発見し、32ステップの企業ネットワーク攻撃シミュレーションを完遂しました(Anthropic 公式発表)
- アーキテクチャの内部実装詳細は非公開です → これが OpenMythos の出発点です
本筋:OpenMythos とは何か
公開済み学術研究をもとに Mythos のアーキテクチャを推測・再現しようとするオープンソース LLM
| 項目 | 内容 |
|---|---|
| 名称 | OpenMythos |
| バージョン | 0.5.0 alpha |
| ライセンス | MIT(完全オープンソース) |
| 作者 | Kye Gomez / The-Swarm-Corporation |
| 配布 | PyPI open-mythos
|
| 訓練データ | FineWeb-Edu(公開データセット) |
| GitHub | 公開から数週間で 12,000以上のスター・約2,700フォーク |
※ 重み(trained weights)は含みません。実行には別途大規模な訓練が必要です。
OpenMythosとは何か(続き)
- Anthropic は「一般公開に向けたサイバーセキュリティ上のセーフガードが整うまで Mythos (Capybara) を公開しない」と説明しています。$1億相当のクレジットを Glasswing 参加組織に提供しました。
- 本スライドで言及する OpenMythos は「Mythos(Capybara)はおそらくこういうアーキテクチャではないか」という考察を、公開論文のみを用いて実証しようとするオープンソース PoCです。
つまり、OpenSource LLMにおいても、Capybaraと同様のアーキテクチャを採用できる未来が近いと考えられます。
ローカルでも思考トークンに塗りつぶされない、とても賢いLLMが作られる可能性があります(省メモリ!)
OpenMythosのアーキテクチャは同じブロックを使い回すので、レイヤーを重ねる通常のTransformerより重み自体が少ないです。
技術的な実体:RDT アーキテクチャ
Recurrent-Depth Transformer(RDT)=ループ型 Transformer
通常の Transformer がレイヤーを「積み重ねる」のに対し、
RDT は同じブロックを T 回繰り返すことで深い推論を実現します。
h_{t+1} = A·h_t + B·e + Transformer(h_t, e)
-
h_t:ループ t 回目の隠れ状態 -
e:入力のエンコード(毎ループ注入) -
A,B:学習済みパラメータ(スペクトル半径 < 1 で安定化)
→ 各ループ ≈ Chain-of-Thought の 1 ステップ(ただし潜在空間で実施)
Mythos の特徴(新問題への高い推論力・事実記憶のムラ)が
ループ型アーキテクチャの特性(記憶より合成が得意)と一致することが仮説の根拠です。
RDT の効率性:具体的な数値
Parcae論文(Prairie et al., 2026)より
770M パラメータのループ型モデルが、同じデータで学習した 1.3B 固定深度 Transformer と同等の性能を発揮します。
つまり、約半分のパラメータ数で同じ品質を実現できます!
RDT の効率性:つづき
これが意味すること
- モデルの重みファイルが小さくなり、ストレージ・VRAM ロードが軽くなります
- 推論時のメモリ効率が高くなります
- ただし学習時はループ数分のアクティベーションが積まれるため、トレードオフがあります
| - | 重み(パラメータ) | 学習時アクティベーション |
|---|---|---|
| 固定深度 Transformer | 多い | 通常 |
| RDT(ループ型) | 少ない | ループ数分増えます |
通常のCoTと、RDTアーキテクチャの比較
通常のChain-of-Thought(言語空間)
- 推論ステップをトークンとして出力する必要があります
- 「まず〜を考えます。次に〜を…」という文字列を生成しながら考えます
- 生成したトークン分だけコンテキスト長が伸びます → KVキャッシュが膨れます
- ユーザーには思考過程が見えます
RDTの潜在空間推論
- トークンを一切出力せずに、隠れ状態
h_tを内部でループさせて「考えます」 - 外から見ると一回のフォワードパスの中で完結します
- コンテキスト長が増えません
従来のCoTとRDTアーキテクチャの比較表
| CoT(言語空間) | RDT(潜在空間) | |
|---|---|---|
| 推論の場所 | トークン出力として外に出す | 隠れ状態の内部ループ |
| コンテキスト長 | 増える | 増えない |
| 計算量/トークン | 少ない | ループ数分だけ多い |
| 柔軟性 | 固定 | 難易度に応じて可変 |
「同じ計算コストでより深く考えられる」あるいは「コンテキストを浪費せずに推論できる」というのが本質に近いと考えられます。
情報源:すべて公開論文由来(コアアーキテクチャ)
| 技術 | 論文 | 公開された年 |
|---|---|---|
| Recurrent-Depth Transformer | Loop, Think, & Generalize | 2025 |
| LTI 安定化(Parcae) | Scaling Laws for Stable Looped LMs (Prairie et al.) | 2026 |
| 潜在推論の理論 | Reasoning with Latent Thoughts (Saunshi et al.) | 2025 |
| ループ型 Transformer の先駆 | Universal Transformers (Dehghani et al.) | 2018 |
| 連続潜在空間推論 | COCONUT | 2024 |
Anthropic から情報を盗んだわけでも、重みをリークしたわけでもありません。
情報源:すべて公開論文由来(コンポーネント)
| コンポーネント | 論文 | 公開された年 |
|---|---|---|
| MLA(KV キャッシュ 1/10 圧縮) | DeepSeek-V2 | 2024 |
| GQA(Grouped Query Attention) | Ainslie et al. | 2023 |
| Mixture-of-Depths Attention | MoDA | 2025 |
| Fine-grained MoE FFN | DeepSeekMoE (Dai et al.) | 2024 |
| Depth-wise LoRA | Relaxed Recursive Transformers (Bae et al.) | 2024 |
| ACT(早期終了) | Graves | 2016 |
| RMSNorm | Zhang & Sennrich | 2019 |
| RoPE(回転位置エンコーディング) | Su et al. | 2021 |
「脅威」という主張を検証する
主張されうる脅威シナリオと、それに対する事実
| 主張 | 事実 |
|---|---|
| 「Claudeの内部を盗んだ」 | 全ソース公開、公開論文のみ参照しています |
| 「安全対策を回避できる」 | alpha版で性能は既存モデルに及びません |
| 「機密アーキテクチャの漏洩」 | 理論的推測であり、Anthropic 公式情報ではありません |
| 「悪用可能な強力なAI」 | 現状は研究目的の実験的実装・重みなしです |
注意: Firefox 271件の脆弱性発見・32ステップ攻撃は
OpenMythos ではなく Anthropic の Mythos Preview 本体の実績です(Anthropic 公式発表)。
OpenMythos はその アーキテクチャ推測を試みる PoC に過ぎません。
事実① 完全な透明性
OpenMythos は「隠すものが何もない」設計です
- ソースコード 100% 公開(GitHub)
- ライセンス:MIT(商用利用・改変・再配布 自由)
- PyPI で誰でもインストール・確認可能です
- 訓練スクリプト・ハイパーパラメータもすべて公開されています
「脅威」となる存在が自らのコードを全公開するとは考えにくいです。
むしろ、透明性こそがこのプロジェクトの本質です。
事実② 現状のステータス
OpenMythos はまだ「研究プロトタイプ」の段階です
- バージョン:0.5.0 alpha
- チェックポイントなしで実行すると意味不明な出力が返ります(ランダム初期化状態)
- 実用化には大規模な訓練が必要です(デフォルト目標:30B トークン)
- 既存の Claude や Mythos とはまったく別物:重みも訓練も共有していません
事実③ アーキテクチャ研究の正当性
既存モデルのアーキテクチャを推測・再現する研究は合法かつ正当です
- Google の論文から Facebook が実装 → Meta LLaMA
- OpenAI の GPT 論文から各社が独自実装 → 多数のオープンLLM
- DeepSeek が Transformer 改良を公開 → 各プロジェクトが採用
OpenMythos も同じ文脈にあります
公開情報をもとにアーキテクチャを推測・実装することは、
AI研究コミュニティの標準的な活動です。
結論
OpenMythos は「セキュリティの脅威」か?
現時点においては脅威になりえません。
以下の理由によります。
- 情報源はすべて公開論文 — 機密漏洩・盗用ではありません
- alpha 版・研究目的・重みなし — Mythos の代替にはなりません
- アーキテクチャ研究は正当 — AI 研究の標準的プラクティスです
OpenMythos は「Mythos のアーキテクチャを公開論文から理論的に推測・再現しようとするオープンソース LLM」であり、 透明性の高い学術的プロジェクトです。
ただし、AI/LLM全体の進化を見据えた、セキュリティ対応の体制面強化は必須であるとも考えています。
現時点においてはOpenMythosは脅威ではないが、自組織がLLMの進化に取り残されると脅威となりうる
・・・かもしれません。
まとめ
Claude Mythos = Anthropic が2026年4月7日に正式発表した実在の最強フロンティアモデル(Mythosはあくまでも内部コードネーム、公開モデル名はCapybara)。
Project Glasswing のもとで限定公開中。アーキテクチャ内部は非公開。
OpenMythos = その非公開アーキテクチャを公開論文から推測・再現しようとする MIT ライセンスの PoC LLM
脅威か? = No — 透明性・合法性・研究目的の観点から根拠なし
一文でまとめると
「Mythosのアーキテクチャを公開論文だけで再現してみた」
やってみた系の動画と同じノリです。
つまりLLMの妥当な進化の過程と捉えるのが良いでしょう。
RDTアーキテクチャの展望
770Mパラメータで1.3Bと同等の性能が出るなら、今まで動かせなかったスペックのマシンでも、より賢いモデルが動くようになる。
- 簡単な質問 → さっと答える(省電力)
- 難しい推論 → じっくりループして考える(高精度)
という人間の思考に近い動的な計算がモデルレベルで実現できます。今のモデルって簡単な質問も難しい質問も同じ計算量なので、ここは結構な進化だと思います。
Mythosがその路線で本当に突出した性能を出しているなら、RDTという仮説の説得力もかなり上がってきますし、オープンソース側に実装が広まるのは時間の問題かもしれません
Appendix
「Mythos」の主要ベンチマーク(参考)
Anthropic 公式発表値(2026年4月)
| ベンチマーク | Mythos Preview | Opus 4.6(前世代最強) |
|---|---|---|
| SWE-bench Verified(コーディング) | 93.9% | 80.8% |
| SWE-bench Pro | 77.8% | 53.4% |
| USAMO 2026(数学オリンピック) | 97.6% | 42.3% |
| GPQA Diamond(大学院レベル科学) | 94.6% | 91.3% |
| CyberGym(サイバーセキュリティ) | 83.1% | 66.6% |
| Terminal-Bench 2.0 | 82.0% | 65.4% |
LLMのVRAM見積もり入門
OpenMythosをローカルで動かすための前提知識
- OpenMythosは重み(学習済みモデルデータ)がありません
- ローカルで動かすには、まずモデルの学習から始める必要があります
そこで、ここでは「モデルの学習」に必要な前提知識をまとめます。
前提知識①:数値精度とバイト数
LLMの重みは 浮動小数点数 で保存されます。
精度によって1パラメータあたりのバイト数が変わります。
前提知識①:数値精度とバイト数(つづき)
| 精度 | ビット数 | バイト数/パラメータ |
|---|---|---|
| float32(FP32) | 32bit | 4バイト |
| bfloat16(BF16) | 16bit | 2バイト |
| int8(量子化) | 8bit | 1バイト |
| int4(量子化) | 4bit | 0.5バイト |
OpenMythosはデフォルトで BF16 を使用しています。
前提知識②:推論VRAMの計算式
推論VRAM ≈ パラメータ数 × 2バイト
具体例(BF16の場合)
| モデル規模 | パラメータ数 | 推論VRAM目安 |
|---|---|---|
| 1Bモデル | 10億 | 約 2GB |
| 3Bモデル | 30億 | 約 6GB |
| 10Bモデル | 100億 | 約 20GB |
| 50Bモデル | 500億 | 約 100GB |
前提知識③:学習時はさらにVRAMが必要です
学習時は重み以外にも以下が必要です
| 種別 | 用途 |
|---|---|
| 重み(weights) | モデルのパラメータ本体 |
| 勾配(gradients) | 誤差逆伝播の計算 |
| オプティマイザ状態 | AdamWなら重みの2倍分 |
学習VRAM ≈ 推論VRAM × 3〜4倍
3Bモデルなら推論 6GB → 学習 約 18〜24GB
OpenMythos バリアント一覧
| バリアント | 推論VRAM目安 | 学習VRAM目安 |
|---|---|---|
| mythos_1b | 約 2GB | 約 8GB |
| mythos_3b | 約 6GB | 約 24GB |
| mythos_10b | 約 20GB | 約 80GB |
| mythos_50b | 約 100GB | 約 400GB |
| mythos_100b | 約 200GB | 約 800GB (現実的ではありません) |
Ryzen AI Max+ 395 では?
GPU割当可能メモリ:最大 112GB
| バリアント | 推論 | 学習 | 備考 |
|---|---|---|---|
| mythos_3b | 可能 | 可能 | まずここから |
| mythos_10b | 可能 | 可能 | メインターゲット |
| mythos_50b | 困難 | 不可能 | 推論のみ |
| mythos_100b以上 | 不可能 | 不可能 | VRAM不足 |
推奨: 3bで動作確認し、10bで本格学習を実施してください。