ローカルLLMの世界へ踏み出す際、誰もが最初に突き当たる壁が「どのファイルをダウンロードすればいいの?」という問題です。特にUnslothなどで公開されている20B(200億パラメータ)クラスのモデルは、選び方一つで動作の快適さが劇的に変わります。
初心者から一歩抜け出したい方向けに、GGUF形式の正体と、量子化選びの決定版ガイドをブログ形式でまとめました。
最近、Unslothなどのツールのおかげで、個人でも20Bクラスの強力なAIモデルを動かせるようになりました。しかし、Hugging Faceのファイルリストを見ると、Q4_0, Q4_K_M, Q5_K_S……といった謎の記号が並んでいて、どれを選べばいいか途方に暮れてしまいますよね。
今回は、ローカルLLMの標準フォーマット「GGUF」のメリット・デメリットと、最適な量子化メソッドの選び方を丁寧に解説します。
1. GGUF形式とは何か?
GGUF (GPT-Generated Unified Format) は、もともと llama.cpp というプロジェクトのために開発された、ローカル環境でAIを動かすための専用フォーマットです。
かつては「GGML」という形式がありましたが、それを大幅に改良し、現在のデファクトスタンダードとなりました。
GGUFの圧倒的なメリット
-
シングルファイル完結:
通常、AIモデルは重みデータ、設定ファイル、トークナイザー(文字を数字に変える辞書)などがバラバラです。GGUFはこれらを**1つのファイル(.gguf)**にすべて詰め込んでいるため、管理が非常に楽です。 -
VRAMが足りなくても動く(オフローディング):
これが最大の特徴です。GPUのメモリ(VRAM)に入り切らない巨大なモデルでも、**「半分はGPU、残りはCPU(メインメモリ)」**といった具合に、計算を分担させて動かすことができます。 -
爆速ロード:
mmapという技術により、OSがファイルをメモリに直接マッピングするため、数GBあるモデルでも一瞬で起動準備が完了します。
GGUFのデメリット
- 推論専用: 学習(トレーニング)には向きません。あくまで「動かすための形式」です。
- 量子化による劣化: 後述する「量子化」を行うため、元のモデルよりはわずかに精度が落ちます。
2. 量子化メソッド(Qn_K_X)の読み解き方
「量子化」とは、モデルのデータを圧縮する作業です。例えば「1.234567...」という細かい数字を「1.2」と丸めることで、データ量を減らします。
ファイル名にある Q4_K_M などの記号には、それぞれ意味があります。
記号の意味
- Q4 / Q5: ビット数(精度)。数字が大きいほど賢いですが、ファイルも大きくなります。
- K: 「K-Quants」という、新しい世代の効率的な量子化手法を使っていることを示します。
- S / M / L: 圧縮の強さ(Small / Medium / Large)。
結局どれがいいの? 比較一覧表
20Bモデルを想定した場合の推奨度です。
| メソッド名 | 精度(知能) | サイズ | 推奨度 | 解説 |
|---|---|---|---|---|
| Q4_K_M | ★★★★☆ | 中 | ◎ 最推奨 | 「迷ったらこれ」。精度と速度のバランスが完璧です。 |
| Q5_K_M | ★★★★★ | 大 | ○ 高性能 | メモリに余裕があるなら。Q4より明らかに回答が安定します。 |
| Q4_K_S | ★★★☆☆ | 小 | △ 妥協 | Q4_K_Mでメモリがカツカツな場合に。 |
| Q3_K_M | ★★☆☆☆ | 極小 | △ 軽量 | 低スペックPC用。知能の低下が目立ち始めます。 |
| Q4_0 / Q4_1 | ★★☆☆☆ | 中 | × 非推奨 | 旧世代の形式。現在はK-Quants系を選びましょう。 |
3. あなたのPCに最適なモデルの選び方
モデルサイズ(20Bなど)とPCスペックに合わせた、具体的な選び方のガイドラインです。
パターンA:VRAM 16GB以上のGPU(RTX 3090/4080/4090等)
- 推奨: Q5_K_M または Q6_K
- 20BモデルをGPUだけで動かせる可能性が高いです。最高精度でサクサク動きます。
パターンB:VRAM 8GB〜12GBのGPU(RTX 3060/4060/4070等)
- 推奨: Q4_K_M
- 一部をCPUに逃がす(オフロード)設定にすれば、実用的な速度で動作します。
パターンC:GPUなし / メインメモリ(RAM)16GBのMacBookなど
- 推奨: Q4_K_S または Q3_K_M
- CPUとメモリだけで動かすことになるため、なるべく軽量なものを選び、速度を確保します。
4. まとめ:初心者が踏むべき3ステップ
- まずは
Q4_K_Mをダウンロードする。 - LM StudioやOllamaなどで動かしてみて、速度(tokens per second)を確認する。
- 「もっと賢くなってほしい」なら
Q5_K_Mへ、「遅すぎる」ならQ3_K_Mへ調整する。
GGUFは非常に柔軟なフォーマットです。自分の環境に合わせて「ちょうどいい」サイズを見つけるのが、ローカルLLMを楽しむ醍醐味でもあります。ぜひ、色々な量子化サイズを試して、その違いを体感してみてください!