ROCmでllm-jp-4、Bonsai-8B(1bit)、Gemma4をベンチマーク

Posted at 2026-04-14

LLM ベンチマーク（llama-bench / ROCm）

llama.cpp の llama-bench を使用して、以下の3モデルを AMD ROCm 環境でベンチマーク計測しました。
MLCommons 公式フォーマットではありませんが、計測指標（スループット・レイテンシ）は MLPerf Inference と同等です。

モデル	量子化	ファイルサイズ	備考
llm-jp-4-8B-thinking	Q4_K_M	4.94 GiB	LLM-jp 8B 思考モデル
llm-jp-4-32B-a3b-thinking	Q4_K_M	19.93 GiB	LLM-jp 32B MoE（実効パラメータ約3B）
Bonsai-8B	Q1_0（1-bit）	1.07 GiB	Prism ML製エンドツーエンド1bitモデル
Gemma4-31B-it	Q4_K_M	17.05 GiB	Google Gemma 4 インストラクションチューン

モデル	pp128 (t/s)	pp512 (t/s)	tg128 (t/s)
llm-jp-4-8B	1220 ± 0.2	1248 ± 3.2	40.7 ± 0.03
llm-jp-4-32B-a3b (MoE)	413 ± 8.0	1135 ± 7.5	76.8 ± 0.26
Bonsai-8B (1-bit)	428 ± 1.0	826 ± 0.8	116 ± 0.23
Gemma4-31B	258 ± 26.3	329 ± 0.5	10.7 ± 0.01

116 t/s という最速の生成速度を記録。ファイルサイズはわずか 1.07 GiB で、FP16（16.38 GiB）の約1/15。
Q1_0 カーネルは VRAM 帯域幅の利用効率が非常に高く、量子化精度の低さをスピードで補っています。

32B の総パラメータを持ちながら実効パラメータは約 3B（MoE 構造）のため、生成速度は 76.8 t/s と高速。
同サイズの dense モデルと比べて大幅に高いスループットを実現しています。

pp512 で 1248 t/s を記録し、4モデル中最速のプリフィル性能。
RAG や長文入力が多いユースケースで特に有利です。

生成速度 10.7 t/s は4モデル中最低。Gemma4 のスライディングウィンドウ＋グローバルアテンションの
インターリーブ構造が llama.cpp の ROCm カーネルと相性が悪く、並列化効率が低下していると考えられます。