0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

RTX2080Ti(22GB)でQwen3.6-35B-A3Bのトークン速度

0
Last updated at Posted at 2026-05-21

前の記事で、Qwen3.6-27Bのモデルや設定を変えてトークン速度がどのくらい出るかを計測してみた

Qwen3.6-35B-A3Bでも同じように条件を変えて測定してみた

結論

私の環境では以下の設定が良さそう

  • Qwen3.6-35B-A3B-GGUF(Q4_K_M)
  • KVキャッシュ:q4_0
  • CPUに載せるレイヤ:4

以下、どのように調べてそうなったかを解説。

Qwen3.6-35B-A3Bのトークン速度の測定

まずはすべてをVRAMに載せる(n-cpu-moeの設定なし)条件でモデルを変えて試してみた。
ちなみに、セルの色が変わっている部分は llama.cpp がVRAM警告を出したものだ。
Qwen3.6-35B-A3Bをllama.cppで駆動.png

一番使いたかった「Q4_K_M」がギリギリVRAMに乗りきらなかったので、n-cpu-moeの値を1から増やして計測してみた。
ちなみに、以下の表のCPU退避は「CPU_Mapped model buffer size」に出てきたサイズをメモしたものだ
Qwen3.6-35B-A3B+MoE設定.png
結果は以下
image.png

llama.cppはVRAMを1GBは空けておこうとする。警告が出なくなったのは n-cpu-moeを「4」以上にしたときだった。

結果を見て

全てVRAMに載せて余裕を持たせる(llama.cppの警告が出なくなる)なら「UD-IQ4_NL_XL」をq8_0か、q4_0で運用
これなら65トークン/秒前後が出る

せっかくMoEを使うので、一部をCPUに載せるなら「Q4_K_M」をq4_0で、n-cpu-moeは「4レイヤー」にする。
これでも62トークン/秒が出る

たった数トークンの速度のために量子化を厳しくするのは残念な気がするので、私が使うとすれば以下が良さそう

  • Qwen3.6-35B-A3B-GGUF(Q4_K_M)
  • KVキャッシュ:q4_0
  • CPUに載せるレイヤ:4

LM Studioで同等の設定をする場合

上記のllama.cppと同じような設定をする場合は、以下のように設定する

Qwen3.6-35B-A3BとLMStudio設定1.png
Qwen3.6-35B-A3BとLMStudio設定2.png

llama.cppを試したときと全く同一条件ではないので参考程度だが62.66トークン/秒と、llama.cppと同等の速度が出た
image.png

Claude Codeで実測

上記は簡単なプロンプト1つでテストしているので、コンテキスト長が伸びてきたときの速度とは異なる
実際にClaudeCodeで数時間かかる処理をさせて、トークンを消費したときの速度を実測した

以下はgrepしたトークン時間の推移の一部
image.png

Qwen3.6-35B-A3Bの実測結果は以下
最大:59.78トークン/秒
最小:24.72トークン/秒
平均:38.30トークン/秒

私が同じパソコンで他の作業をしながら動かしていたためか、上記で測定した62トークン/秒よりちょっと遅いが、まずまずの数字が出ている

コンテキストサイズが大きくなって圧縮。またコンテキストが……、を繰り返したので速度が落ちたり上がったりしたが、平均38.3は私が何かの作業をしているときにウラでやってくれると思えば十分な速度だ

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?