下記のハードウェア構成、ソフトウェア構成で構築したローカルLLMで
各オープンモデルLM実行時のVRAM使用状況を調べてみました。
- | - | スペック | 製品名 |
---|---|---|---|
1 | CPU | 20コア | Intel Core i7 14700 |
2 | MEM | 64GB | Crucial Pro 64GB Kit (32GBx2) DDR4-3200 UDIMM |
3 | GPU | VRAM 16GB |
ZOTAC GAMING GeForce RTX 5060 Ti 16GB Twin Edge OC |
- | ソフト | バージョン |
---|---|---|
1 | OS | Ubuntu 22.04 LTS |
2 | GPUドライバー | 575.51.02 BETA |
3 | CUDA Toolkit | 12.8 Update 1 |
4 | cuDNN | 9.8.0 |
5 | docker | 28.1.1 |
6 | Ollama | 0.6.6 |
7 | Open WebUi | 0.6.5 |
入力プロンプト:
ある満月の夜、空を見上げると、月のすぐそばに火星が見えた。
その時、地球と火星の距離は遠いのか近いのか?
❌:VRAM不足のため正常に処理できていないと思われる。
Q4:4ビットで重み(パラメータ)を表現する量子化
K:k-meansクラスタリングを用いた量子化手法
M:Medium(ミディアム)サイズ最適化。精度と圧縮率のバランスが良い設定
タイプ0(Type-0)方式:各ブロック(通常32個の重み)に対して「スケール値(float16)」のみを使い、オフセット(最小値)は使用しない
- | モデル名 | 量子化タイプ | パラメータ数 | VRAM使用量 | ファイルサイズ |
---|---|---|---|---|---|
1 | ZELYZA(llama3) | 8.03B | 11.7GB | 4.9GB | |
2 | DeepSeek-r1 | Q4_K_M | 7.6B | 5.4GB | 4.7GB |
3 | llama3.3 | Q4_K_M | 70.6B | ❌14.8GB | 42GB |
4 | llama3 | Q4_0 | 8.0B | 6.1GB | 3.7GB |
5 | phi4 | Q4_K_M | 14.7B | 11.0GB | 9.1GB |
6 | gemma3 | Q4_K_M | 4.3B | 9.7GB | 3.3GB |
7 | mistral | Q4_0 | 7.2B | ❌15.0GB | 4.1GB |
8 | qwq(Qwen2.5) | Q4_K_M | 32.8B | ❌15.0GB | 19GB |
9 | mistral-small3.1 | Q4_K_M | 24.0B | 5.2GB | 15GB |
10 | lmma4 | Q4_K_M | 108.6B | 12.1GB | 67GB |
11 | phi4-reasoning | Q4_K_M | 14.7B | 13GB | 11GB |
12 | phi4-mini-reasoning | Q4_K_M | 3.8B | 4.8GB | 3.2GB |