Claude Fable 5 を9Bモデルに蒸留？ 100万トークンの超長文推理モデル「Qwythos-9B」を4GBのVRAMで動かす

Posted at 2026-07-04

Claude Fable 5 を9Bモデルに蒸留？ 100万トークンの超長文推理モデル「Qwythos-9B」を4GBのVRAMで動かす

オープンソースAI（ローカルLLM）の進化スピードには目を見張るものがあります。2026年6月、Empero AIから「Qwythos-9B-Claude-Mythos-5-1M」（以下、Qwythos-9B）という新たなオープンウェイト推理モデルが発表され、ローカルAIコミュニティで大きな話題となっています。

本モデルの最大の特徴は、クローズドソースの最高峰である「Claude Fable 5（Fable 5）」や「Claude Mythos 5」の高度な思考プロセスを90億パラメータ（9B）という軽量モデルに蒸留（Distillation）している点です。さらに、100万トークンという超長文コンテキストに対応し、量子化モデル（GGUF）を使えば4GB程度の消費級VRAMでも快適に動作します。

本記事では、Qwythos-9BとFable 5の関係性、ローカル環境へのインストール手順、および実機テストの結果と運用の注意点について詳しく解説します。

1. Claude Fable 5 & Mythos 5 との関係性：何をどう「蒸留」したのか？

Qwythos-9Bは、アリババの強力なオープンソースモデル「Qwen3.5-9B」をベース（基座）とし、Empero AIによってポストトレーニング（フルパラメータ後訓練）が行われたモデルです。

最大の特徴は、そのトレーニングデータにあります。

5億トークン以上の高品質な思考軌跡:
クローズドソース最高峰の推論モデルである Claude Fable 5 や Claude Mythos 5 が生成した「思考の連鎖（Chain of Thought: CoT）」を含む、5億トークン以上の対話データを学習させています。
インハウスツール「rethink」によるデータ合成:
Empero AIの自社データ合成システム「rethink」を使用し、Claude特有の「論理的に思考し、自己修正するプロセス」や「人間味のある温かいクリエイティブライティングの文体」をシミュレート・補強した学習用トレースを構築しました。

これにより、軽量な9Bサイズでありながら、「Claudeがどう考え、どう推論し、どう自己修正するか」という高精度な脳の痕跡（思考 of 癖）をローカル環境で再現することに成功しています。

2. Qwythos-9B の3つの圧倒的な強み

① 104万（1M）トークンの超長文コンテキスト

「YaRN (Yet another RoPE extensioN)」技術を採用することで、ネイティブで最大 1,048,576 トークン（約100万トークン）の超長文コンテキストウィンドウをサポートしています。これにより、以下のようなローカルタスクが現実的になります。

巨大なソースコードリポジトリを丸ごと読み込ませてのバグ修正やリファクタリング
複数の学術論文や数万ページの技術ドキュメントの横断解析・対話

② 拒否しない「無審査 (Uncensored) / アブリテレイテッド (Abliterated)」特性

公式モデルの公開後、ローカルAIコミュニティの有志（Richard Young氏ら）によって、モデルの過剰な安全性フィルターを緩和した「Abliterated（アブリテレイテッド）」版が作成されました。
サイバーセキュリティ、医学、薬学、生物化学といった高度でデリケートな技術検証を行う際、AI特有の「お説教」や「回答拒否」をすることなく、Claude譲りの優れた知性を維持したまま、実直に回答を出力してくれます。

③ 原生的なツール呼び出し（Tool Calling）

Function Calling（外部API・関数の実行）やPython実行環境と連携した自己コード修正能力が最初から組み込まれています。自律的にコードを書いてテストし、エラーが出たら推論プロセス内で自己デバッグする「ローカルAIエージェント」の開発に極めて適しています。

3. ローカル環境へのインストール・デプロイ手順

Qwythos-9Bは、個人用のPC（消費級GPU）で動作するように最適化されています。

方法A：Ollama を使用したクイック起動（推奨）

すでにOllamaが導入されている環境であれば、ターミナルから以下のコマンドを実行するだけで、コミュニティ推奨の「Abliterated版」をダウンロードして起動できます。

# アブリテレイテッド版（拒否反応を緩和したバージョン）の起動
ollama run richardyoung/qwythos-9b-abliterated

※安全フィルターが不要で、より硬派な専門用途に使いたい場合は、アンセンサード版も公開されています。

# アンセンサード版の起動
ollama run mikemikeok/Qwythos-9B-Uncensored

方法B：GGUFモデルの導入とローカル展開（LM Studio / llama.cpp / 各種UI・エージェント連携）

Ollamaを使わない、より詳細なカスタマイズを行いたい場合は、GGUF形式の量化（量子化）モデルを直接ダウンロードして展開します。

1. ハードウェア（VRAM）と量子化ファイルの対応表

GGUF版は、自身のGPUに搭載されているVRAM容量に合わせてダウンロードするファイルを選択します。以下は、VRAM容量ごとの推奨量子化レベルの対応関係です。

搭載VRAM容量	推奨GGUF量子化レベル	特徴とメリット
4GB (最低動作環境)	`Q4_K_M`	最低限のVRAMで動作。速度は最も速く、軽量です。
6GB	`Q5_K_M`	速度と知性のバランスが良く、6GB環境に最適化されています。
8GB (推奨動作環境)	`Q6_K`	8GBのグラフィックカード（RTX 4060等）でフルロードしつつ、高い知性を維持。
12GB	`Q8_K_M` / `Q8_0`	ほぼ全精度に近い知性を発揮。RTX 3060 12G等に最適。
16GB	`BF16` (部分オフロード)	量子化による劣化を完全に排除したい場合に選択します。
24GB	`BF16` (全精度・フルロード)	RTX 3090/4090等。100万トークンの長文コンテキストをフルロード可能。

※Hugging Faceの EmperoAI/Qwythos-9B-Claude-Mythos-5-1M-GGUF または richardyoung/Qwythos-9B-Claude-Mythos-5-1M-Abliterated-GGUF から対象の .gguf ファイルをダウンロードしてください。

2. LM Studioでの導入手順

もっとも簡単にUI経由でGGUFを動かす方法です。

LM Studioを起動し、左メニュー of 検索アイコン（Search）をクリックします。
検索窓に Qwythos-9B と入力し、Hugging Face上のリポジトリから対応するGGUFモデルをダウンロードします（VRAM量に合わせて上記テーブルのファイルを指定）。
画面中央上の「Select a model to load」からダウンロードしたQwythos-9Bを選択します。
右パネルの「Hardware Settings」で GPU Offload を有効にし、すべてのレイヤーをGPUにオフロード（Max またはスライダーを右端に設定）します。

3. llama.cpp / llama-server を使ったコマンドライン展開

本番環境や外部ツールと連携させたい場合は、llama.cpp のサーバー機能（llama-server）を利用してAPIサーバーを起動するのが一般的です。

# llama-serverの起動コマンド例（VRAMへのオフロード数を-nglで指定）
# -c 32768 は初期コンテキストサイズ（必要に応じて拡張可能）
./llama-server -m ./models/qwythos-9b-q4_k_m.gguf -c 32768 -ngl 99 --host 0.0.0.0 --port 8080

4. フロントエンド（Cherry Studio / OpenWebUI）およびエージェント（OpenClaw）との連携

llama-server を起動後、OpenAI互換APIのエンドポイント（例: http://localhost:8080/v1）が公開されます。これを利用して、モダンなUIや自律的エージェントツールと接続します。

Cherry Studio / OpenWebUI (フロントエンド):
UIツール側の「OpenAI API互換」設定に http://localhost:8080/v1 を指定し、モデル名に qwythos-9b を設定するだけで、美しいチャット画面で対話を開始できます。
OpenClaw (AIエージェントフレームワーク):
Qwythos-9Bは「原生的なツール呼び出し（Function Calling）」が可能なため、OpenClaw の設定ファイルの接続先APIを本ローカルサーバーに設定することで、AIエージェントがPC上で自律的にファイルを編集したりツールを実行するワークフローを構築可能です。

⚠️ 最重要：サンプリングパラメータの設定（ループバグの回避）

Qwythos-9Bをローカルで動かす際、もっとも注意すべきなのは温度（Temperature）の設定です。

推理モデルとしての性能を引き出すため、公式および検証ユーザーから以下のサンプリング設定が強く推奨されています。

推奨 Temperature: 0.6 前後
注意点:
温度設定を 0.3 以下などの低すぎる値（またはGreedy Decoding）に設定すると、モデルが同じ文章や思考プロセスを無限に繰り返し生成する「ループバグ」に陥るリスクが非常に高くなります。モデルの調子がおかしい、または途中で生成が止まると感じた場合は、必ず設定画面やシステムプロンプトで温度を 0.6 に調整してください。

4. 実機テスト結果と性能評価

ローカル環境にて、いくつかのテストシナリオを実行した検証結果をまとめます。

テスト1：自己修正を伴う論理推論

数学の引っ掛け問題や、コード生成時のエラーデバッグをテストしました。

結果:
思考プロセス（<thought>タグ内）で、「待てよ、このアプローチだと〇〇の例外ケースに対応できない」「前述の計算に誤りがあったので、修正する」といった、Fable 5に見られるような自律的な自己推敲が確認されました。最終出力にたどり着くまでの正確性は、従来の単純な9Bモデルを大きく凌駕しています。

テスト2：長文コンテキスト（YaRN）の機能検証

数十枚のPDF資料（技術ドキュメント）を一度にインプットし、ドキュメントの奥深くに埋もれている特定のパラメータ仕様について質問しました。

結果:
YaRNの効果により、コンテキスト窓を広げても「迷子（Needle in a Haystack）」にならず、指定した仕様を正確に抽出できました。ただし、Ollamaなどの実行環境で10万トークンを超える入力を行う場合、システムのVRAM/RAMが十分に確保されていないと、Ollamaが自動的にコンテキストサイズを縮小するため、物理的なハードウェアスペック（RAM容量）が必要になる点には注意が必要です。

⚠️ トレードオフと既知の限界

YaRN技術を用いて「100万トークンの長文処理」に特化させた代償として、**「ごく短い対話や、単純なタスク（数文字の回答など）」における生成の切れ味や品質が、ベースであるQwen3.5本来の性能からわずかに低下している（トレードオフがある）ことがテストで示されています。
なんでもこなす万能チャットボットというよりは、「重厚な長文読解、複雑なソースコード解析、自律的エージェント」**という特定のプロフェッショナルな領域で最大の真価を発揮する特化型モデルと捉えるのが適切です。

5. まとめ：ローカルAIエージェントの強力なエンジン

Qwythos-9Bは、最高峰クローズドモデルである「Claude Fable 5」の高度な論理思考を、手元のPC（4GB〜8GB of VRAM）で再現できる画期的な推理モデルです。

Fable 5譲りの自律的自己修正能力
100万トークンの圧倒的なコンテキスト対応
消費級ハードウェアで動作するGGUF量子化の軽さ

これらが融合した本モデルは、プライバシーを保護しつつ、ローカルでソースコード解析や自律的AIエージェントを動かしたい開発者にとって、2026年現在、最も強力な選択肢の一つと言えるでしょう。ぜひ、OllamaやLM Studioを使ってその知性を手元で体験してみてください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up