第3回ローカルLLM、どのモデルをどう動かす? ── 選定とハード構成【モデル・構成編・2026年6月】

Last updated at 2026-06-11Posted at 2026-06-11

📚 3部構成： ① コスト編／ ② キャパ・速度編／ ③ モデル・構成編（本記事）
※ 各記事は単体で読めます。

この連載について
「自前でLLMを動かすと、いくら／何人で／何が載るか」を現場で説明できる粒度で整理する3部構成です。
型番・モデル名・価格は 2026年6月時点 のスナップショット（ここが一番早く陳腐化します）。
対象は テキスト生成LLM（チャット／要約／RAG／コード生成等）。マルチモーダルや画像・動画生成（拡散モデル）は VRAM の食い方が異なるため別途見積りを。
⚠️ 数値はすべて 机上の概算。調達・容量設計・SLAの根拠にはせず、具体化の際は各ベンダー・提供元に要件・見積りを確認してください。

3部構成の第3回。サイズ×精度の選び方 と、70B級を動かす ハード構成・設備グレード まで。VRAM・速度の基礎は ② キャパ・速度編を先に読むとスムーズです。

どのモデルを選ぶ? ── サイズ × 精度

モデル選びは 「サイズ（賢さ）× 精度（軽さ）」の2段。この掛け算が固定費(VRAM)を決めます。

① 賢さ＝サイズ（パラメータ数）

◯B はパラメータ数（8B＝80億）。エンジンの排気量のようなもので、大きいほど賢い傾向だがVRAM・速度・コストが増えます。

区分	目安	用途
小型	~8B	速い・安い。要約・RAG・社内チャット。単GPUの主戦場
中型	~30B級	バランス型。多くの業務はここで足りる
大型	~70B	高い推論力。複雑な判断・本番の定番
さらに上	数百B〜	最大級。研究・クラスタ前提（MoEは別計算）

区分に厳密な定義はなく、世間でよく使われる“だいたいの目安”です。「大きい＝正解」ではありません。量子化した中型が、雑に使った大型を上回ることも珍しくない。

② 軽さ＝精度（量子化）

精度＝1つの係数を何ビットで持つか。落とすほど軽くなります（＝量子化）。固定費＝サイズ × 精度 の掛け算。

精度	ビット数	8Bの重み	メモ
FP16	16bit	≒16GB	公式重みの基準。最も重いが品質は素直
FP8	8bit	≒8GB	約1/2。劣化は小さく新世代GPUが得意
4bit	4bit	≒5GB	約1/4。用途次第で実用十分

4bitには型が複数あります（GPTQ / AWQ / bitsandbytes(NF4) / NVIDIA NVFP4 など）。VRAMに載るかはほぼ同じで、差が出るのは品質と速度です（FP4はBlackwell世代がハード対応）。なお公式重みはFP16(bf16)配布で、FP8/4bitは公式重みを量子化したもの（自前 or ベンダ配布）。

モデルは大きい方がいいの?

サイズ×精度で選ぶ、と言いました。では「そもそも大きい方が安心では?」とも思えますが——結論から言うと 「大きいほど良い」は誤り。パラメータが増えると賢くはなりますが、速度は落ち・コストは上がり、簡単なタスクでは小型と体感差がほぼ出ません。大きさは「正義」ではなく、タスクが要求する分だけ必要になるものです。

大きさが効く（大型の価値が出る）	効かない（小型で十分）
複雑な推論・多段の判断（難しいコード、論理、計画立案）	要約・分類・キーワード抽出
多様で予測できない汎用アシスタント	定型Q&A・FAQボット
品質のブレが許されない最終回答・重要な判断	社内文書のRAG（検索して答える）
長く自律動作するエージェント（ミスが連鎖する）	データ整形・定型処理

なぜ大型が効くのか（“ぶれない”わけではない）

大型でも出力の揺らぎ（確率的なばらつき）は消えません。違いは“揺らいだ先の最悪値”です。
小型は難所で下振れが深い（事実の捏造・指示の取りこぼし）のに対し、大型は下振れが浅く＝大コケしにくい。
しかも難しいタスクほど差が開き、簡単なタスクではほぼ同等。だから「難所だけ大型、ふだんは小型」が合理的。

揺らぎ自体はサイズと別の手段で抑える（大小と直交）

temperature を下げる／構造化出力（スキーマ強制）／RAGで根拠を与える／検証ステップ・多数決（self-consistency）。
「大型にすれば安定」ではなく、大型で下振れを浅くしつつ、これらで揺らぎを抑えるのが実務です。

大きいモデル(70B)はどんな構成で動く?

構成は大きく2種類あります。

WS（ワークステーション）：机の横に置く1台のGPUマシン。手軽だが単一GPUなので容量に上限。
DC（データセンター）級：サーバルームに置く高性能GPU。複数枚を束ねられ、容量も可用性も段違い。

70B（Llama 3.3 70B：70B・128K・公式FP8版あり）の重みは FP16≒140GB / FP8≒70GB / 4bit≒40GB。これを構成に当てると：

精度	重み(GB)	構成例	判定
FP16	~140GB	WS単体（48 / 96GB）	❌ 重みが載らない
FP16	~140GB	DC 80GB×2（テンソル並列）	✅ 本番品質の入口
FP16	~140GB	H200×1（141GB）	⚠️ 重みでほぼ満杯
FP8	~70GB	WS 96GB	✅ 単GPUで実用
FP8	~70GB	H100 80GB×1	✅ 1枚に収まる（KV余裕は薄い）
4bit	~40GB	WS 48GB	△ 載るが余裕なし
4bit	~40GB	WS 96GB	✅ 単GPUで余裕

※ 概算値。実数はベンダー/提供元に要確認（重み≒params×bytes/param、判定はKV＋バッファ込みの目安）。

「80GB×2」はロードバランシングではありません。 これは1つのモデルを2枚に分割して載せる構成（テンソル並列）で、要点はGPU間通信です。一方、同じモデルを複数GPUに複製して多人数を捌く場合は、リクエストを各レプリカに振り分ける仕組み（ロードバランシング/ルーティング）が別途必要になります（＝後述「ハードの階段」STEP03の世界）。分割（capacity）と複製（throughput）は別物として設計します。
なお 分割（テンソル並列）には GPU間の高速接続（NVLink）が前提 です。L40S 等の PCIe接続GPU は分割に不向き（GPU間がPCIe ≒ 64GB/s で頭打ち）── L40Sは「1枚に載るモデルを複製して捌く」のが本来の使い方です（→ 後述「WSでよくない?」）。

要点：FP16の70Bは96GBのWSでも載りません（重みが収まるのはH200 141GB / B200 192GB級から）。鍵は精度で、FP8/4bitなら単一GPU（WS含む）に載る。

ハードの「階段」── 型番ではなく規模と運用思想のジャンプ

「H100×2」か「H200×4〜8」かは型番の違いではなく、「載せる」→「止めずに捌く」 という規模と運用思想のジャンプです（同じ70BをH100で組むこともB200で組むこともできる）。

価格・型番は2026年6月時点の例です。WS級の代表例として RTX PRO 6000 Blackwell（96GB GDDR7）クラスで数百万円程度。実勢は為替・市況で動くので見積りで確認を。

ワークステーションでよくない? ── 容量と設備グレードは別

前節のとおりFP8/4bitなら70BもWSに載ります。だから当然この問いが出ます。でも判断軸は 容量（縦）だけでなく、設備グレード（横） です。VRAMの数字が近くても、個人作業機と共有・本番基盤は別物。

観点	個人ワークステーション	共有・本番AI基盤
可用性・冗長	1台のみ。落ちたら停止	電源冗長・ECC・24/365前提
利用形態	個人作業が主目的（技術的には複数人可）	複数人・複数チームの同時利用前提
設置・物理	オフィスの島・施錠程度	サーバルーム/DC・物理セキュリティ
保守・SLA	修理対応どまりになりがち	監視・SLA・計画的更新まで含む

本番基盤の代表例が L40S（48GB）構成 です。L40SはNVLink非搭載なので 70Bの分割（テンソル並列）には不向き ですが、それは弱点ではなく用途違い ── 1枚に載るモデル（8B・量子化中型）を複製して多人数を捌くのが本来の使い方で、まさに「共有・本番基盤」に合致します。分割が要るFP16 70Bは、NVLink搭載のDC級（H100/H200等）の領域です。

FAQ

実際、何人くらいで同時に触れる? メモリ上は十数人分あっても、70Bは生成自体が重く、単GPUでの快適な同時利用は数人が現実的。そもそも1台落ちれば全員停止 ──「何人で触れるか」より「業務を止めずに支えられるか」が本番の問い。
性能(品質)は大丈夫? “載る”と“FP16並みに賢い”は別。1人で試すなら4bitで十分実用。FP16品質を複数人で安定して、はDC級の領域。検証はWS、本番はDC級と分けるのが正解。
WSを束ねれば(クラスタ化)? 束ねられるかはGPU次第で、NVLink非対応のGPUは分割そのものが不可。対応GPUでもVRAMを足すこと自体は可能だが、台またぎの通信が頭打ちで遅く、冗長性も運用も本番グレードに届かない。容量は解けても本番にはならず、PoC止まり。

まとめ

価格：単価では比べられない。3形態（従量/専有借/専有買）の総額で見る。低稼働=①／常時長期=③／中間=②。
何人で：占有GPUのキャパはVRAMしだい。小型は普段使いで十分、大型の本番品質×多人数はDC級。
何が載る：載るか＝VRAM容量。70BもFP8/4bitなら単一GPU（WS含む）に載る（FP16はDC級から）。
選定：基準は「載るか」より 「業務システムとして信頼して載せられるか」。用途に最小十分なサイズ×精度×設備グレードを。

参考（出典）

meta-llama/Llama-3.3-70B-Instruct — Hugging Face（70B / 128K / config）
Meta Llama 3.3 (70B) — Oracle Generative AI（標準版と公式FP8版）
nvidia/Llama-3.1-70B-Instruct-FP8 — Hugging Face（FP8でメモリ約50%削減）
NVIDIA H200 / NVIDIA B200（VRAM・帯域・TDP）
量子化：GPTQ / AWQ / bitsandbytes
推論基盤：vLLM（PagedAttention・文脈長/同時数の制御）

本記事は2026年6月時点の情報に基づく机上での整理です。型番・価格・モデル名は時点依存であり、最新は各一次情報をご確認ください。この辺の情報はすぐ劣化するのであくまで参考まで。。。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

第3回 ローカルLLM、どのモデルをどう動かす? ── 選定とハード構成【モデル・構成編・2026年6月】