ローカルLLMに興味はある。だが「どのGPUを買えばいいのか」が分からない。ゲーム用のベンチマークは腐るほどあるのに、「このVRAMで何十億パラメータのモデルが動くか」の情報がほとんどない。
予算50万円から始めて、30万、25万、20万と削っていったら、構成が崩れるポイントが3つ見えた。
本記事の前提: 新品パーツ・NVIDIA GPU限定で構成。DDR5メモリは2025-2026年に価格高騰が起きているが、本記事では適正価格(高騰前の相場)で試算している。中古GPU(RTX 3090等)やAMD GPU(RX 7900 XTX等)、Apple Siliconという選択肢もあるが、それぞれ保証・ソフトウェア互換性・入手性の考慮が必要なため、今回はスコープ外とする。
前提: VRAMが全てを決める
ローカルLLMの推論速度は、ゲームのfpsと決定的に違う要素がある。VRAMにモデルが載り切るかどうかで性能が非連続に変わる。
GPUのCUDAコア数やクロックは二次的な要素だ。モデル全体がVRAMに載れば高速、載らなければCPU/RAMにあふれた層の処理がボトルネックになり、速度が数分の一に落ちる。
RTX 4060 8GBでの実測例: 9Bモデルが全層GPUに載ると33 t/s。27Bモデルは24/58層しか載らず3.6 t/s。同じGPUで10倍近い差が出る。これがVRAMの崖だ。
この「載るか載らないか」の境界がVRAMの崖(クリフ)で、予算を削るとこの崖にぶつかる。
50万円: それでも判断は残る
RTX 5090は32GB GDDR7。ローカルLLMにとって夢のようなスペックだが、GPU単体でMSRP 39.4万円、市場価格は40〜50万円台に達する。
【5090ルート: GPU全振り】
GPU: RTX 5090 32GB ~42万円
CPU: Ryzen 5 9600X ~3.5万円 ← GPUに予算を食われる
RAM: DDR5 64GB ~2万円
M/B: B650 ~2.5万円
SSD: 1TB NVMe Gen4 ~1万円
PSU: 1000W 80+ Gold ~2万円
ケース ~1万円
──────────────────────────
合計 ~54万円(予算オーバー)
50万では5090構成が収まらない。収めるならCPUをさらに削るか、SSDやケースを最安にするか。32GB VRAMは手に入るが、周辺がショボくなる。
【5080ルート: バランス型】
GPU: RTX 5080 16GB ~17万円
CPU: Ryzen 7 9800X3D ~7万円
RAM: DDR5 128GB (32GBx4) ~4万円
M/B: B650E ~3万円
SSD: 2TB NVMe Gen4 ~2万円
PSU: 850W 80+ Gold ~1.5万円
ケース ~1.5万円
──────────────────────────
合計 ~36万円(余裕)
5080なら16GB VRAMでCPU・RAM・ストレージ全てに余裕が出る。27BモデルのQ4_K_M(ファイルサイズ約16.7GB)は16GB VRAMでは完全には収まらないが、大部分の層をGPU処理でき、8GB環境の部分オフロード(3.6 t/s)とは次元が違う推論速度(推定15-25 t/s)が出る。
RAM 128GBはMoEモデルの非活性エキスパート重みをシステムRAMに展開するため。Qwen3.5-35B-A3BはシステムRAMを30GB以上消費する実測データがある。128GBなら大型MoEでも余裕。
判断: 50万で5090に全振りするか、5080でバランスを取るか。 32GB VRAMが活きるのは70B以上のモデルを本格運用する場合。27Bクラスまでなら16GBで十分戦える。自分なら5080ルートを選ぶ。
30万円: 判断が面白くなる境界
50万から30万に削ると、GPUの選択が全てを決める構造がより鮮明になる。
GPU: RTX 5070 Ti 16GB ~15万円
CPU: Ryzen 7 9700X ~4万円
RAM: DDR5 96GB (48GBx2) ~3万円
M/B: B650 ~2.5万円
SSD: 1TB NVMe Gen4 ~1万円
PSU: 750W 80+ Gold ~1.2万円
ケース ~0.8万円
──────────────────────────
合計 ~27.5万円
5070 Tiで16GB VRAMを維持しつつ、CPUもRAMもまともなラインを確保。残り2.5万はSSD増設やCPUクーラーに回せる。
ここで「RTX 5080 16GB(~17万)にすべきか?」という分岐がある。5080と5070 Tiの差はCUDAコア数とメモリ帯域で、VRAMは同じ16GB。LLM推論でVRAMが同一なら、実測差は帯域分の10-20%程度と推定される。
自分なら5070 Tiを選び、浮いた2万をRAMに回す。MoEモデルの非活性エキスパートはシステムRAMに展開されるため、GPU速度の10%よりRAM容量のほうが体感に直結する場面がある。
30万はローカルLLM用PCの「安心ライン」。 16GB VRAM + 96GB RAM + まともなCPU。これ以上削ると、どこかを犠牲にする判断が始まる。
25万円: ここがクリフの入口
30万から5万削っただけなのに、構成の安定感が一気に変わる。
5070 Ti維持ルート
GPU: RTX 5070 Ti 16GB ~15万円
CPU: Ryzen 5 7600 ~2.8万円 ← 2世代前に転落
RAM: DDR5 64GB ~2万円 ← 96GBから減
M/B: B650 ~2.5万円
SSD: 1TB NVMe ~1万円
PSU: 750W ~1.2万円
ケース ~0.8万円
──────────────────────────
合計 ~25.3万円
GPU以外が全て妥協。CPUが2世代前に落ち、RAMが96→64GBに減る。MoEモデルで35B-A3Bを動かすにはRAM 30GB以上が必要だったから、64GBだと他のアプリケーションとの共存が厳しくなる。
5070(12GB)転向ルート
GPU: RTX 5070 12GB ~10万円
CPU: Ryzen 5 9600X ~3.5万円
RAM: DDR5 64GB ~2万円
M/B + SSD + PSU + ケース ~5.5万円
──────────────────────────
合計 ~21万円
バランスは取れる。だが、12GB VRAMの位置づけが微妙だ。
12GB VRAM: 改善はあるが、変革はない
VRAM別に「載るモデル」と推定速度を整理すると、12GBの立ち位置が見える。
VRAM 載るモデル (Q4_K_M) 推定速度 新しく解禁されるクラス
──────────────────────────────────────────────────────────────
8GB 7B-9B 全層 25-35 t/s ← エントリーライン
12GB 7B-9B 余裕、14B 全層 14B: 15-25 t/s ← 14Bが追加
16GB 27B 大部分GPU処理 27B: 10-20 t/s ← 27Bクラスが射程 ★
24GB+ 27B 全層余裕、70B 部分 27B: 20-30 t/s ← 70Bも現実的
8GB→12GBで14Bクラス(Qwen3 14B、Phi-4 14B等)が全層載るようになる。14Bは9Bから確実に品質が上がるクラスで、特にコード生成や推論タスクで差が出る。改善は実在する。
だが12GB→16GBで起きる変化はもっと大きい。9Bと27Bの品質差は、9Bと14Bの差と比べて明らかに大きい。 コード生成の正確性、長文の一貫性、複雑な指示への追従 — 27Bで初めて「使える」と感じるタスクが多い。
同じ4GB増分でも:
- 8GB→12GB: 段階的な改善(14Bが使える。体感差はある)
- 12GB→16GB: 変革的な飛躍(27Bクラスが射程に入る。体験が変わる)
12GBが「無意味」とは言わない。だが予算の制約下で4GBの投資先を選ぶなら、12GB→16GBのリターンのほうが圧倒的に大きい。
20万円: 「組めない」と判断した金額
20万で16GB VRAMを確保しようとすると:
RTX 5070 Ti 16GB (15万) → 残り5万でPC全体
CPU: 最低ライン
RAM: 32GB(アップグレードになっていない)
SSD: 500GB(モデル2-3個で満杯)
GPU以外が現行のミドルクラスノートPC以下になる。これは「デスクトップを組んだ」とは言えない。
12GBに妥協すれば20万でバランスの取れた構成は組める。14Bモデルが快適に動く環境としては悪くない。だが、8GB環境からの飛躍は限定的で、「自作PCを組んだ」対価としては物足りない。
20万出して12GB VRAMのデスクトップを組むのと、同じ20万でRTX 4060搭載のノートPCを買って8GBで運用するのと、ローカルLLMの体験としてどちらが豊かか。正直、判断が難しい。
予算別に見えた3つの崖
| 崖 | 価格帯 | 何が起きるか |
|---|---|---|
| VRAM崖 | 12GB→16GB | 27Bクラスが射程圏内に。同じ4GBでもリターンが非線形 |
| 構成崖 | 30万→25万 | GPU以外が総崩れ。5万円の差で見える景色が変わる |
| 成立崖 | 25万→20万 | 16GB維持が不可能に。12GBでも投資対効果に疑問 |
結論: ローカルLLMのためにPCを組むなら25万円が下限。 このラインでRTX 5070 Ti 16GB + まともなCPU/RAMが確保できる。それ以下は「組めはするが、組んだ価値が出にくい」。
25万出せるなら5万追加して30万にする価値がある。RAMが96GBに増え、MoEモデルの運用が現実的になる。
参考
- RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/s — 8GB VRAMの限界と可能性
- 27B Denseに2.4倍差をつけたMoE — 8GB VRAMで測った35B-A3Bの実力 — MoEモデルのRAM消費実測
- パラメータ数で選んだモデルは8GBで使えない — VRAMクリフの実測データ