2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

第3回 ローカルLLM、どのモデルをどう動かす? ── 選定とハード構成【モデル・構成編・2026年6月】

2
Last updated at Posted at 2026-06-11

📚 3部構成: ① コスト編② キャパ・速度編③ モデル・構成編(本記事)
※ 各記事は単体で読めます。

この連載について
「自前でLLMを動かすと、いくら/何人で/何が載るか」を現場で説明できる粒度で整理する3部構成です。
型番・モデル名・価格は 2026年6月時点 のスナップショット(ここが一番早く陳腐化します)。
対象は テキスト生成LLM(チャット/要約/RAG/コード生成等)。マルチモーダルや画像・動画生成(拡散モデル)は VRAM の食い方が異なるため別途見積りを。
⚠️ 数値はすべて 机上の概算。調達・容量設計・SLAの根拠にはせず、具体化の際は各ベンダー・提供元に要件・見積りを確認してください。

3部構成の第3回。サイズ×精度の選び方 と、70B級を動かす ハード構成・設備グレード まで。VRAM・速度の基礎は ② キャパ・速度編を先に読むとスムーズです。


どのモデルを選ぶ? ── サイズ × 精度

モデル選びは 「サイズ(賢さ)× 精度(軽さ)」の2段。この掛け算が固定費(VRAM)を決めます。

① 賢さ = サイズ(パラメータ数)

◯B はパラメータ数(8B=80億)。エンジンの排気量のようなもので、大きいほど賢い傾向だがVRAM・速度・コストが増えます。

区分 目安 用途
小型 ~8B 速い・安い。要約・RAG・社内チャット。単GPUの主戦場
中型 ~30B級 バランス型。多くの業務はここで足りる
大型 ~70B 高い推論力。複雑な判断・本番の定番
さらに上 数百B〜 最大級。研究・クラスタ前提(MoEは別計算)

区分に厳密な定義はなく、世間でよく使われる“だいたいの目安”です。「大きい=正解」ではありません。量子化した中型が、雑に使った大型を上回ることも珍しくない。

② 軽さ = 精度(量子化)

精度=1つの係数を何ビットで持つか。落とすほど軽くなります(=量子化)。固定費 = サイズ × 精度 の掛け算。

精度 ビット数 8Bの重み メモ
FP16 16bit ≒16GB 公式重みの基準。最も重いが品質は素直
FP8 8bit ≒8GB 約1/2。劣化は小さく新世代GPUが得意
4bit 4bit ≒5GB 約1/4。用途次第で実用十分

4bitには型が複数あります(GPTQ / AWQ / bitsandbytes(NF4) / NVIDIA NVFP4 など)。VRAMに載るかはほぼ同じで、差が出るのは品質と速度です(FP4はBlackwell世代がハード対応)。なお公式重みはFP16(bf16)配布で、FP8/4bitは公式重みを量子化したもの(自前 or ベンダ配布)。


モデルは大きい方がいいの?

サイズ×精度で選ぶ、と言いました。では「そもそも大きい方が安心では?」とも思えますが——結論から言うと 「大きいほど良い」は誤り。パラメータが増えると賢くはなりますが、速度は落ち・コストは上がり、簡単なタスクでは小型と体感差がほぼ出ません。大きさは「正義」ではなく、タスクが要求する分だけ必要になるものです。

大きさが効く(大型の価値が出る) 効かない(小型で十分)
複雑な推論・多段の判断(難しいコード、論理、計画立案) 要約・分類・キーワード抽出
多様で予測できない汎用アシスタント 定型Q&A・FAQボット
品質のブレが許されない最終回答・重要な判断 社内文書のRAG(検索して答える)
長く自律動作するエージェント(ミスが連鎖する) データ整形・定型処理

なぜ大型が効くのか(“ぶれない”わけではない)

  • 大型でも出力の揺らぎ(確率的なばらつき)は消えません。違いは“揺らいだ先の最悪値”です。
  • 小型は難所で下振れが深い(事実の捏造・指示の取りこぼし)のに対し、大型は下振れが浅く=大コケしにくい
  • しかも難しいタスクほど差が開き、簡単なタスクではほぼ同等。だから「難所だけ大型、ふだんは小型」が合理的。

揺らぎ自体はサイズと別の手段で抑える(大小と直交)

  • temperature を下げる/構造化出力(スキーマ強制)/RAGで根拠を与える/検証ステップ・多数決(self-consistency)。
  • 「大型にすれば安定」ではなく、大型で下振れを浅くしつつ、これらで揺らぎを抑えるのが実務です。

大きいモデル(70B)はどんな構成で動く?

構成は大きく2種類あります。

  • WS(ワークステーション):机の横に置く1台のGPUマシン。手軽だが単一GPUなので容量に上限。
  • DC(データセンター)級:サーバルームに置く高性能GPU。複数枚を束ねられ、容量も可用性も段違い。

70B(Llama 3.3 70B:70B・128K・公式FP8版あり)の重みは FP16≒140GB / FP8≒70GB / 4bit≒40GB。これを構成に当てると:

精度 重み(GB) 構成例 判定
FP16 ~140GB WS単体(48 / 96GB) ❌ 重みが載らない
FP16 ~140GB DC 80GB×2(テンソル並列) ✅ 本番品質の入口
FP16 ~140GB H200×1(141GB) ⚠️ 重みでほぼ満杯
FP8 ~70GB WS 96GB ✅ 単GPUで実用
FP8 ~70GB H100 80GB×1 ✅ 1枚に収まる(KV余裕は薄い)
4bit ~40GB WS 48GB △ 載るが余裕なし
4bit ~40GB WS 96GB ✅ 単GPUで余裕

※ 概算値。実数はベンダー/提供元に要確認(重み≒params×bytes/param、判定はKV+バッファ込みの目安)。

「80GB×2」はロードバランシングではありません。 これは1つのモデルを2枚に分割して載せる構成(テンソル並列)で、要点はGPU間通信です。一方、同じモデルを複数GPUに複製して多人数を捌く場合は、リクエストを各レプリカに振り分ける仕組み(ロードバランシング/ルーティング)が別途必要になります(=後述「ハードの階段」STEP03の世界)。分割(capacity)と複製(throughput)は別物として設計します。
なお 分割(テンソル並列)には GPU間の高速接続(NVLink)が前提 です。L40S 等の PCIe接続GPU は分割に不向き(GPU間がPCIe ≒ 64GB/s で頭打ち)── L40Sは「1枚に載るモデルを複製して捌く」のが本来の使い方です(→ 後述「WSでよくない?」)。

要点:FP16の70Bは96GBのWSでも載りません(重みが収まるのはH200 141GB / B200 192GB級から)。鍵は精度で、FP8/4bitなら単一GPU(WS含む)に載る

ハードの「階段」── 型番ではなく規模と運用思想のジャンプ

「H100×2」か「H200×4〜8」かは型番の違いではなく、「載せる」→「止めずに捌く」 という規模と運用思想のジャンプです(同じ70BをH100で組むこともB200で組むこともできる)。

価格・型番は2026年6月時点の例です。WS級の代表例として RTX PRO 6000 Blackwell(96GB GDDR7)クラスで数百万円程度。実勢は為替・市況で動くので見積りで確認を。


ワークステーションでよくない? ── 容量と設備グレードは別

前節のとおりFP8/4bitなら70BもWSに載ります。だから当然この問いが出ます。でも判断軸は 容量(縦)だけでなく、設備グレード(横) です。VRAMの数字が近くても、個人作業機と共有・本番基盤は別物。

観点 個人ワークステーション 共有・本番AI基盤
可用性・冗長 1台のみ。落ちたら停止 電源冗長・ECC・24/365前提
利用形態 個人作業が主目的(技術的には複数人可) 複数人・複数チームの同時利用前提
設置・物理 オフィスの島・施錠程度 サーバルーム/DC・物理セキュリティ
保守・SLA 修理対応どまりになりがち 監視・SLA・計画的更新まで含む

本番基盤の代表例が L40S(48GB)構成 です。L40SはNVLink非搭載なので 70Bの分割(テンソル並列)には不向き ですが、それは弱点ではなく用途違い ── 1枚に載るモデル(8B・量子化中型)を複製して多人数を捌くのが本来の使い方で、まさに「共有・本番基盤」に合致します。分割が要るFP16 70Bは、NVLink搭載のDC級(H100/H200等)の領域です。

FAQ

  • 実際、何人くらいで同時に触れる? メモリ上は十数人分あっても、70Bは生成自体が重く、単GPUでの快適な同時利用は数人が現実的。そもそも1台落ちれば全員停止 ──「何人で触れるか」より「業務を止めずに支えられるか」が本番の問い。
  • 性能(品質)は大丈夫? “載る”と“FP16並みに賢い”は別。1人で試すなら4bitで十分実用。FP16品質を複数人で安定して、はDC級の領域。検証はWS、本番はDC級と分けるのが正解。
  • WSを束ねれば(クラスタ化)? 束ねられるかはGPU次第で、NVLink非対応のGPUは分割そのものが不可。対応GPUでもVRAMを足すこと自体は可能だが、台またぎの通信が頭打ちで遅く、冗長性も運用も本番グレードに届かない。容量は解けても本番にはならず、PoC止まり。

まとめ

  • 価格:単価では比べられない。3形態(従量/専有借/専有買)の総額で見る。低稼働=①/常時長期=③/中間=②。
  • 何人で:占有GPUのキャパはVRAMしだい。小型は普段使いで十分、大型の本番品質×多人数はDC級。
  • 何が載る:載るか=VRAM容量。70BもFP8/4bitなら単一GPU(WS含む)に載る(FP16はDC級から)。
  • 選定:基準は「載るか」より 「業務システムとして信頼して載せられるか」。用途に最小十分なサイズ×精度×設備グレードを。


参考(出典)

本記事は2026年6月時点の情報に基づく机上での整理です。型番・価格・モデル名は時点依存であり、最新は各一次情報をご確認ください。この辺の情報はすぐ劣化するのであくまで参考まで。。。

2
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?