llm-jp-4をROCm 7.2.1でテスト

Posted at 2026-04-14

llm-jp-4 モデル検証まとめ

ファイル名	サイズ	備考
llm-jp-4-32b-a3b-thinking-Q4_K_M.gguf	20 GB	32Bパラメータ (MoE, 実効3B)
llm-jp-4-8b-thinking-Q4_K_M.gguf	5.0 GB	8Bパラメータ

いずれも mmnga-o 氏によるコミュニティ製GGUFを使用。
元モデル: llm-jp/llm-jp-4-8b-thinking

llm-jp-4 は内部アーキテクチャとして qwen3moe を採用しており、現行の llama.cpp (b8661) は src/models/qwen3moe.cpp にて正式サポート済み。ROCm バックエンドで問題なく動作する。

項目	速度
プロンプト処理 (pp512)	1116 t/s
トークン生成 (tg128)	39 t/s

32B モデルは VRAM には収まるものの速度面で重いため、8B モデルを推奨。

~/llama.cpp/build/bin/llama-cli \
  -m ~/llm-jp-4/llm-jp-4-8b-thinking-Q4_K_M.gguf \
  -ngl 99 \
  -p "あなたは誰ですか？" \
  -n 200