RTX2080Ti(22GB)で＋LM Studio＋Qwen3.6-27Bのトークン速度UP

Posted at 2026-05-20

1つ前の記事で llama.cpp を使って Qwen3.6-27Bを動かしてみた

私にとって良さそうだった組み合わせは以下

llama.cpp はこの組み合わせで23.79トークン/秒が出たが、LM Studioで同じ設定でどのくらいの速度が出るかを検証してみた

結論

LM Studio でも 23.28トークン/秒が出た

LM Studioでまず Qwen3.6-27B をダウンロードする
好きなGGUFファイルを選べるが、私の環境で使えそうな「Q4_K_M（18.66GB）」にする

あとは、llama.cppと同じように設定をGUIで入れていく

同じ画面の下でKVキャッシュを変える
私の環境ではK/Vを違う値にすると起動しなかったり速度が遅くなったりしたので、KとVは同じ設定にした（例えば、KをQ8、VをQ4にすると実測で13.89トークン/秒だった）

VRAM節約を優先して、長コンテキスト耐性がやや下がるが「Q4_0」を選んだ

簡単なプロンプトを指定してHTML＋JavaScriptでプログラムを書かせてみた

結果は「23.28トークン/秒」だった
llama.cppで測定した「23.79トークン」と誤差レベル。VRAM 22GBにしては健闘している