0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

llm-jp-4をROCm 7.2.1でテスト

0
Posted at

llm-jp-4 モデル 検証まとめ

環境

  • GPU: AMD Radeon 8060S (gfx1151, VRAM 48GB)
  • ROCm: 7.2.0
  • llama.cpp: build b8661 (b7ad48ebd)

ダウンロードしたモデル

ファイル名 サイズ 備考
llm-jp-4-32b-a3b-thinking-Q4_K_M.gguf 20 GB 32Bパラメータ (MoE, 実効3B)
llm-jp-4-8b-thinking-Q4_K_M.gguf 5.0 GB 8Bパラメータ

いずれも mmnga-o 氏によるコミュニティ製GGUFを使用。
元モデル: llm-jp/llm-jp-4-8b-thinking

llama.cpp の対応状況

llm-jp-4 は内部アーキテクチャとして qwen3moe を採用しており、現行の llama.cpp (b8661) は src/models/qwen3moe.cpp にて正式サポート済み。ROCm バックエンドで問題なく動作する。

ベンチマーク結果(llm-jp-4-8b-thinking Q4_K_M)

項目 速度
プロンプト処理 (pp512) 1116 t/s
トークン生成 (tg128) 39 t/s

32B モデルは VRAM には収まるものの速度面で重いため、8B モデルを推奨。

実行コマンド

~/llama.cpp/build/bin/llama-cli \
  -m ~/llm-jp-4/llm-jp-4-8b-thinking-Q4_K_M.gguf \
  -ngl 99 \
  -p "あなたは誰ですか?" \
  -n 200
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?