1つ前の記事で llama.cpp を使って Qwen3.6-27Bを動かしてみた
私にとって良さそうだった組み合わせは以下
- 27B:Q4_K_M
- MTP:オフ
- KVキャッシュ:q4_0
llama.cpp はこの組み合わせで23.79トークン/秒が出たが、LM Studioで同じ設定でどのくらいの速度が出るかを検証してみた
結論
設定
LM Studioでまず Qwen3.6-27B をダウンロードする
好きなGGUFファイルを選べるが、私の環境で使えそうな「Q4_K_M(18.66GB)」にする
あとは、llama.cppと同じように設定をGUIで入れていく
- コンテキスト長:私は128000。もっと少なくても良いかも。減らすとVRAMが節約できる
- GPUオフロード:MAXにする(Qwen3.6-27Bの場合は「64」)
- CPUスレッドプールサイズ:4。もっと多くて良いかも。
- Max Concurrent Predictions:1。同時接続数。私しか使わない&ローカルでそれほどパワーが無いので「1」にした
同じ画面の下でKVキャッシュを変える
私の環境ではK/Vを違う値にすると起動しなかったり速度が遅くなったりしたので、KとVは同じ設定にした(例えば、KをQ8、VをQ4にすると実測で13.89トークン/秒だった)
VRAM節約を優先して、長コンテキスト耐性がやや下がるが「Q4_0」を選んだ
- Kキャッシュ量子化タイプ:Q4_0
- Vキャッシュ量子化タイプ:Q4_0
実測
簡単なプロンプトを指定してHTML+JavaScriptでプログラムを書かせてみた
結果は「23.28トークン/秒」だった
llama.cppで測定した「23.79トークン」と誤差レベル。VRAM 22GBにしては健闘している



