【保存版】ローカルLLMのGGUF形式とは？量子化メソッド（Q4_K_M等）の選び方を徹底解説~中野哲平

Posted at 2026-02-28

ローカルLLMの世界へ踏み出す際、誰もが最初に突き当たる壁が「どのファイルをダウンロードすればいいの？」という問題です。特にUnslothなどで公開されている20B（200億パラメータ）クラスのモデルは、選び方一つで動作の快適さが劇的に変わります。

初心者から一歩抜け出したい方向けに、GGUF形式の正体と、量子化選びの決定版ガイドをブログ形式でまとめました。

最近、Unslothなどのツールのおかげで、個人でも20Bクラスの強力なAIモデルを動かせるようになりました。しかし、Hugging Faceのファイルリストを見ると、Q4_0, Q4_K_M, Q5_K_S……といった謎の記号が並んでいて、どれを選べばいいか途方に暮れてしまいますよね。

今回は、ローカルLLMの標準フォーマット「GGUF」のメリット・デメリットと、最適な量子化メソッドの選び方を丁寧に解説します。

1. GGUF形式とは何か？

GGUF (GPT-Generated Unified Format) は、もともと llama.cpp というプロジェクトのために開発された、ローカル環境でAIを動かすための専用フォーマットです。

かつては「GGML」という形式がありましたが、それを大幅に改良し、現在のデファクトスタンダードとなりました。

GGUFの圧倒的なメリット

シングルファイル完結:
通常、AIモデルは重みデータ、設定ファイル、トークナイザー（文字を数字に変える辞書）などがバラバラです。GGUFはこれらを**1つのファイル（.gguf）**にすべて詰め込んでいるため、管理が非常に楽です。
VRAMが足りなくても動く（オフローディング）:
これが最大の特徴です。GPUのメモリ（VRAM）に入り切らない巨大なモデルでも、**「半分はGPU、残りはCPU（メインメモリ）」**といった具合に、計算を分担させて動かすことができます。
爆速ロード:
mmapという技術により、OSがファイルをメモリに直接マッピングするため、数GBあるモデルでも一瞬で起動準備が完了します。

GGUFのデメリット

推論専用: 学習（トレーニング）には向きません。あくまで「動かすための形式」です。
量子化による劣化: 後述する「量子化」を行うため、元のモデルよりはわずかに精度が落ちます。

2. 量子化メソッド（Qn_K_X）の読み解き方

「量子化」とは、モデルのデータを圧縮する作業です。例えば「1.234567...」という細かい数字を「1.2」と丸めることで、データ量を減らします。

ファイル名にある Q4_K_M などの記号には、それぞれ意味があります。

記号の意味

Q4 / Q5: ビット数（精度）。数字が大きいほど賢いですが、ファイルも大きくなります。
K: 「K-Quants」という、新しい世代の効率的な量子化手法を使っていることを示します。
S / M / L: 圧縮の強さ（Small / Medium / Large）。

結局どれがいいの？比較一覧表

20Bモデルを想定した場合の推奨度です。

メソッド名	精度（知能）	サイズ	推奨度	解説
Q4_K_M	★★★★☆	中	◎ 最推奨	「迷ったらこれ」。精度と速度のバランスが完璧です。
Q5_K_M	★★★★★	大	○ 高性能	メモリに余裕があるなら。Q4より明らかに回答が安定します。
Q4_K_S	★★★☆☆	小	△ 妥協	Q4_K_Mでメモリがカツカツな場合に。
Q3_K_M	★★☆☆☆	極小	△ 軽量	低スペックPC用。知能の低下が目立ち始めます。
Q4_0 / Q4_1	★★☆☆☆	中	× 非推奨	旧世代の形式。現在はK-Quants系を選びましょう。

3. あなたのPCに最適なモデルの選び方

モデルサイズ（20Bなど）とPCスペックに合わせた、具体的な選び方のガイドラインです。

パターンA：VRAM 16GB以上のGPU（RTX 3090/4080/4090等）

推奨: Q5_K_M または Q6_K
20BモデルをGPUだけで動かせる可能性が高いです。最高精度でサクサク動きます。

パターンB：VRAM 8GB〜12GBのGPU（RTX 3060/4060/4070等）

推奨: Q4_K_M
一部をCPUに逃がす（オフロード）設定にすれば、実用的な速度で動作します。

パターンC：GPUなし / メインメモリ（RAM）16GBのMacBookなど

推奨: Q4_K_S または Q3_K_M
CPUとメモリだけで動かすことになるため、なるべく軽量なものを選び、速度を確保します。

4. まとめ：初心者が踏むべき3ステップ

まずは Q4_K_M をダウンロードする。
LM StudioやOllamaなどで動かしてみて、速度（tokens per second）を確認する。
「もっと賢くなってほしい」なら Q5_K_M へ、「遅すぎる」なら Q3_K_M へ調整する。

GGUFは非常に柔軟なフォーマットです。自分の環境に合わせて「ちょうどいい」サイズを見つけるのが、ローカルLLMを楽しむ醍醐味でもあります。ぜひ、色々な量子化サイズを試して、その違いを体感してみてください！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up