1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

ローカルLLMのVRAM使用量

Posted at

下記のハードウェア構成、ソフトウェア構成で構築したローカルLLMで
各オープンモデルLM実行時のVRAM使用状況を調べてみました。

- - スペック 製品名
1 CPU 20コア Intel Core i7 14700
2 MEM 64GB Crucial Pro 64GB Kit (32GBx2) DDR4-3200 UDIMM
3 GPU VRAM
16GB
ZOTAC GAMING GeForce RTX 5060 Ti 16GB Twin Edge OC
- ソフト バージョン
1 OS Ubuntu 22.04 LTS
2 GPUドライバー 575.51.02 BETA
3 CUDA Toolkit 12.8 Update 1
4 cuDNN 9.8.0 
5 docker 28.1.1
6 Ollama 0.6.6
7 Open WebUi 0.6.5

入力プロンプト:
ある満月の夜、空を見上げると、月のすぐそばに火星が見えた。
その時、地球と火星の距離は遠いのか近いのか?

❌:VRAM不足のため正常に処理できていないと思われる。
Q4:4ビットで重み(パラメータ)を表現する量子化
K:k-meansクラスタリングを用いた量子化手法
M:Medium(ミディアム)サイズ最適化。精度と圧縮率のバランスが良い設定
タイプ0(Type-0)方式:各ブロック(通常32個の重み)に対して「スケール値(float16)」のみを使い、オフセット(最小値)は使用しない

- モデル名 量子化タイプ パラメータ数 VRAM使用量 ファイルサイズ
1 ZELYZA(llama3) 8.03B 11.7GB 4.9GB
2 DeepSeek-r1 Q4_K_M 7.6B 5.4GB 4.7GB
3 llama3.3 Q4_K_M 70.6B ❌14.8GB 42GB
4 llama3 Q4_0 8.0B 6.1GB 3.7GB
5 phi4 Q4_K_M 14.7B 11.0GB 9.1GB
6 gemma3 Q4_K_M 4.3B 9.7GB 3.3GB
7 mistral Q4_0 7.2B ❌15.0GB 4.1GB
8 qwq(Qwen2.5) Q4_K_M 32.8B ❌15.0GB 19GB
9 mistral-small3.1 Q4_K_M 24.0B 5.2GB 15GB
10 lmma4 Q4_K_M 108.6B 12.1GB 67GB
11 phi4-reasoning Q4_K_M 14.7B 13GB 11GB
12 phi4-mini-reasoning Q4_K_M 3.8B 4.8GB 3.2GB
1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?