0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

RTX2080Ti(22GB)で+LM Studio+Qwen3.6-27Bのトークン速度UP

0
Posted at

1つ前の記事で llama.cpp を使って Qwen3.6-27Bを動かしてみた

私にとって良さそうだった組み合わせは以下

  • 27B:Q4_K_M
  • MTP:オフ
  • KVキャッシュ:q4_0

llama.cpp はこの組み合わせで23.79トークン/秒が出たが、LM Studioで同じ設定でどのくらいの速度が出るかを検証してみた

結論

LM Studio でも 23.28トークン/秒が出た
image.png

設定

LM Studioでまず Qwen3.6-27B をダウンロードする
好きなGGUFファイルを選べるが、私の環境で使えそうな「Q4_K_M(18.66GB)」にする

Qwen3.6-27Bのダウンロード.png

あとは、llama.cppと同じように設定をGUIで入れていく

  • コンテキスト長:私は128000。もっと少なくても良いかも。減らすとVRAMが節約できる
  • GPUオフロード:MAXにする(Qwen3.6-27Bの場合は「64」)
  • CPUスレッドプールサイズ:4。もっと多くて良いかも。
  • Max Concurrent Predictions:1。同時接続数。私しか使わない&ローカルでそれほどパワーが無いので「1」にした

Qwen3.6-27Bのコンテキスト長やGPUオフロード.png

同じ画面の下でKVキャッシュを変える
私の環境ではK/Vを違う値にすると起動しなかったり速度が遅くなったりしたので、KとVは同じ設定にした(例えば、KをQ8、VをQ4にすると実測で13.89トークン/秒だった)

VRAM節約を優先して、長コンテキスト耐性がやや下がるが「Q4_0」を選んだ

  • Kキャッシュ量子化タイプ:Q4_0
  • Vキャッシュ量子化タイプ:Q4_0

image.png

実測

簡単なプロンプトを指定してHTML+JavaScriptでプログラムを書かせてみた

結果は「23.28トークン/秒」だった
llama.cppで測定した「23.79トークン」と誤差レベル。VRAM 22GBにしては健闘している

image.png

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?