この連載について
「自前でLLMを動かすと、いくら/何人で/何が載るか」を現場で説明できる粒度で整理する3部構成です。
型番・モデル名・価格は 2026年6月時点 のスナップショット(ここが一番早く陳腐化します)。
対象は テキスト生成LLM(チャット/要約/RAG/コード生成等)。マルチモーダルや画像・動画生成(拡散モデル)は VRAM の食い方が異なるため別途見積りを。
⚠️ 数値はすべて 机上の概算。調達・容量設計・SLAの根拠にはせず、具体化の際は各ベンダー・提供元に要件・見積りを確認してください。
3部構成の第3回。サイズ×精度の選び方 と、70B級を動かす ハード構成・設備グレード まで。VRAM・速度の基礎は ② キャパ・速度編を先に読むとスムーズです。
どのモデルを選ぶ? ── サイズ × 精度
モデル選びは 「サイズ(賢さ)× 精度(軽さ)」の2段。この掛け算が固定費(VRAM)を決めます。
① 賢さ = サイズ(パラメータ数)
◯B はパラメータ数(8B=80億)。エンジンの排気量のようなもので、大きいほど賢い傾向だがVRAM・速度・コストが増えます。
| 区分 | 目安 | 用途 |
|---|---|---|
| 小型 | ~8B | 速い・安い。要約・RAG・社内チャット。単GPUの主戦場 |
| 中型 | ~30B級 | バランス型。多くの業務はここで足りる |
| 大型 | ~70B | 高い推論力。複雑な判断・本番の定番 |
| さらに上 | 数百B〜 | 最大級。研究・クラスタ前提(MoEは別計算) |
区分に厳密な定義はなく、世間でよく使われる“だいたいの目安”です。「大きい=正解」ではありません。量子化した中型が、雑に使った大型を上回ることも珍しくない。
② 軽さ = 精度(量子化)
精度=1つの係数を何ビットで持つか。落とすほど軽くなります(=量子化)。固定費 = サイズ × 精度 の掛け算。
| 精度 | ビット数 | 8Bの重み | メモ |
|---|---|---|---|
| FP16 | 16bit | ≒16GB | 公式重みの基準。最も重いが品質は素直 |
| FP8 | 8bit | ≒8GB | 約1/2。劣化は小さく新世代GPUが得意 |
| 4bit | 4bit | ≒5GB | 約1/4。用途次第で実用十分 |
4bitには型が複数あります(GPTQ / AWQ / bitsandbytes(NF4) / NVIDIA NVFP4 など)。VRAMに載るかはほぼ同じで、差が出るのは品質と速度です(FP4はBlackwell世代がハード対応)。なお公式重みはFP16(bf16)配布で、FP8/4bitは公式重みを量子化したもの(自前 or ベンダ配布)。
モデルは大きい方がいいの?
サイズ×精度で選ぶ、と言いました。では「そもそも大きい方が安心では?」とも思えますが——結論から言うと 「大きいほど良い」は誤り。パラメータが増えると賢くはなりますが、速度は落ち・コストは上がり、簡単なタスクでは小型と体感差がほぼ出ません。大きさは「正義」ではなく、タスクが要求する分だけ必要になるものです。
| 大きさが効く(大型の価値が出る) | 効かない(小型で十分) |
|---|---|
| 複雑な推論・多段の判断(難しいコード、論理、計画立案) | 要約・分類・キーワード抽出 |
| 多様で予測できない汎用アシスタント | 定型Q&A・FAQボット |
| 品質のブレが許されない最終回答・重要な判断 | 社内文書のRAG(検索して答える) |
| 長く自律動作するエージェント(ミスが連鎖する) | データ整形・定型処理 |
なぜ大型が効くのか(“ぶれない”わけではない)
- 大型でも出力の揺らぎ(確率的なばらつき)は消えません。違いは“揺らいだ先の最悪値”です。
- 小型は難所で下振れが深い(事実の捏造・指示の取りこぼし)のに対し、大型は下振れが浅く=大コケしにくい。
- しかも難しいタスクほど差が開き、簡単なタスクではほぼ同等。だから「難所だけ大型、ふだんは小型」が合理的。
揺らぎ自体はサイズと別の手段で抑える(大小と直交)
-
temperatureを下げる/構造化出力(スキーマ強制)/RAGで根拠を与える/検証ステップ・多数決(self-consistency)。 - 「大型にすれば安定」ではなく、大型で下振れを浅くしつつ、これらで揺らぎを抑えるのが実務です。
大きいモデル(70B)はどんな構成で動く?
構成は大きく2種類あります。
- WS(ワークステーション):机の横に置く1台のGPUマシン。手軽だが単一GPUなので容量に上限。
- DC(データセンター)級:サーバルームに置く高性能GPU。複数枚を束ねられ、容量も可用性も段違い。
70B(Llama 3.3 70B:70B・128K・公式FP8版あり)の重みは FP16≒140GB / FP8≒70GB / 4bit≒40GB。これを構成に当てると:
| 精度 | 重み(GB) | 構成例 | 判定 |
|---|---|---|---|
| FP16 | ~140GB | WS単体(48 / 96GB) | ❌ 重みが載らない |
| FP16 | ~140GB | DC 80GB×2(テンソル並列) | ✅ 本番品質の入口 |
| FP16 | ~140GB | H200×1(141GB) | ⚠️ 重みでほぼ満杯 |
| FP8 | ~70GB | WS 96GB | ✅ 単GPUで実用 |
| FP8 | ~70GB | H100 80GB×1 | ✅ 1枚に収まる(KV余裕は薄い) |
| 4bit | ~40GB | WS 48GB | △ 載るが余裕なし |
| 4bit | ~40GB | WS 96GB | ✅ 単GPUで余裕 |
※ 概算値。実数はベンダー/提供元に要確認(重み≒params×bytes/param、判定はKV+バッファ込みの目安)。
「80GB×2」はロードバランシングではありません。 これは1つのモデルを2枚に分割して載せる構成(テンソル並列)で、要点はGPU間通信です。一方、同じモデルを複数GPUに複製して多人数を捌く場合は、リクエストを各レプリカに振り分ける仕組み(ロードバランシング/ルーティング)が別途必要になります(=後述「ハードの階段」STEP03の世界)。分割(capacity)と複製(throughput)は別物として設計します。
なお 分割(テンソル並列)には GPU間の高速接続(NVLink)が前提 です。L40S 等の PCIe接続GPU は分割に不向き(GPU間がPCIe ≒ 64GB/s で頭打ち)── L40Sは「1枚に載るモデルを複製して捌く」のが本来の使い方です(→ 後述「WSでよくない?」)。
要点:FP16の70Bは96GBのWSでも載りません(重みが収まるのはH200 141GB / B200 192GB級から)。鍵は精度で、FP8/4bitなら単一GPU(WS含む)に載る。
ハードの「階段」── 型番ではなく規模と運用思想のジャンプ
「H100×2」か「H200×4〜8」かは型番の違いではなく、「載せる」→「止めずに捌く」 という規模と運用思想のジャンプです(同じ70BをH100で組むこともB200で組むこともできる)。
価格・型番は2026年6月時点の例です。WS級の代表例として RTX PRO 6000 Blackwell(96GB GDDR7)クラスで数百万円程度。実勢は為替・市況で動くので見積りで確認を。
ワークステーションでよくない? ── 容量と設備グレードは別
前節のとおりFP8/4bitなら70BもWSに載ります。だから当然この問いが出ます。でも判断軸は 容量(縦)だけでなく、設備グレード(横) です。VRAMの数字が近くても、個人作業機と共有・本番基盤は別物。
| 観点 | 個人ワークステーション | 共有・本番AI基盤 |
|---|---|---|
| 可用性・冗長 | 1台のみ。落ちたら停止 | 電源冗長・ECC・24/365前提 |
| 利用形態 | 個人作業が主目的(技術的には複数人可) | 複数人・複数チームの同時利用前提 |
| 設置・物理 | オフィスの島・施錠程度 | サーバルーム/DC・物理セキュリティ |
| 保守・SLA | 修理対応どまりになりがち | 監視・SLA・計画的更新まで含む |
本番基盤の代表例が L40S(48GB)構成 です。L40SはNVLink非搭載なので 70Bの分割(テンソル並列)には不向き ですが、それは弱点ではなく用途違い ── 1枚に載るモデル(8B・量子化中型)を複製して多人数を捌くのが本来の使い方で、まさに「共有・本番基盤」に合致します。分割が要るFP16 70Bは、NVLink搭載のDC級(H100/H200等)の領域です。
FAQ
- 実際、何人くらいで同時に触れる? メモリ上は十数人分あっても、70Bは生成自体が重く、単GPUでの快適な同時利用は数人が現実的。そもそも1台落ちれば全員停止 ──「何人で触れるか」より「業務を止めずに支えられるか」が本番の問い。
- 性能(品質)は大丈夫? “載る”と“FP16並みに賢い”は別。1人で試すなら4bitで十分実用。FP16品質を複数人で安定して、はDC級の領域。検証はWS、本番はDC級と分けるのが正解。
- WSを束ねれば(クラスタ化)? 束ねられるかはGPU次第で、NVLink非対応のGPUは分割そのものが不可。対応GPUでもVRAMを足すこと自体は可能だが、台またぎの通信が頭打ちで遅く、冗長性も運用も本番グレードに届かない。容量は解けても本番にはならず、PoC止まり。
まとめ
- 価格:単価では比べられない。3形態(従量/専有借/専有買)の総額で見る。低稼働=①/常時長期=③/中間=②。
- 何人で:占有GPUのキャパはVRAMしだい。小型は普段使いで十分、大型の本番品質×多人数はDC級。
- 何が載る:載るか=VRAM容量。70BもFP8/4bitなら単一GPU(WS含む)に載る(FP16はDC級から)。
- 選定:基準は「載るか」より 「業務システムとして信頼して載せられるか」。用途に最小十分なサイズ×精度×設備グレードを。
参考(出典)
- meta-llama/Llama-3.3-70B-Instruct — Hugging Face(70B / 128K / config)
- Meta Llama 3.3 (70B) — Oracle Generative AI(標準版と公式FP8版)
- nvidia/Llama-3.1-70B-Instruct-FP8 — Hugging Face(FP8でメモリ約50%削減)
- NVIDIA H200 / NVIDIA B200(VRAM・帯域・TDP)
- 量子化:GPTQ / AWQ / bitsandbytes
- 推論基盤:vLLM(PagedAttention・文脈長/同時数の制御)
本記事は2026年6月時点の情報に基づく机上での整理です。型番・価格・モデル名は時点依存であり、最新は各一次情報をご確認ください。この辺の情報はすぐ劣化するのであくまで参考まで。。。