llm-jp-4 モデル 検証まとめ
環境
- GPU: AMD Radeon 8060S (gfx1151, VRAM 48GB)
- ROCm: 7.2.0
- llama.cpp: build b8661 (b7ad48ebd)
ダウンロードしたモデル
| ファイル名 | サイズ | 備考 |
|---|---|---|
| llm-jp-4-32b-a3b-thinking-Q4_K_M.gguf | 20 GB | 32Bパラメータ (MoE, 実効3B) |
| llm-jp-4-8b-thinking-Q4_K_M.gguf | 5.0 GB | 8Bパラメータ |
いずれも mmnga-o 氏によるコミュニティ製GGUFを使用。
元モデル: llm-jp/llm-jp-4-8b-thinking
llama.cpp の対応状況
llm-jp-4 は内部アーキテクチャとして qwen3moe を採用しており、現行の llama.cpp (b8661) は src/models/qwen3moe.cpp にて正式サポート済み。ROCm バックエンドで問題なく動作する。
ベンチマーク結果(llm-jp-4-8b-thinking Q4_K_M)
| 項目 | 速度 |
|---|---|
| プロンプト処理 (pp512) | 1116 t/s |
| トークン生成 (tg128) | 39 t/s |
32B モデルは VRAM には収まるものの速度面で重いため、8B モデルを推奨。
実行コマンド
~/llama.cpp/build/bin/llama-cli \
-m ~/llm-jp-4/llm-jp-4-8b-thinking-Q4_K_M.gguf \
-ngl 99 \
-p "あなたは誰ですか?" \
-n 200