1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

第1回 ローカルLLMは結局いくら? ── 3つの「持ち方」と価格【コスト編・2026年6月】

1
Last updated at Posted at 2026-06-11

📚 3部構成: ① コスト編(本記事)② キャパ・速度編③ モデル・構成編
※ 各記事は単体で読めます。

この連載について
「自前でLLMを動かすと、いくら/何人で使えるか/何が載るか」を現場で説明できる粒度で整理する3部構成です。
型番・モデル名・価格は 2026年6月時点 のスナップショット(ここが一番早く陳腐化します)。

3部構成の第1回。まず GPUの「持ち方」と価格の出方 を整理します。「載るか・速いか」は ② キャパ・速度編、「どのモデルをどう動かすか」は ③ モデル・構成編で扱います。


前提:これは「オンプレか、クラウドか」の話じゃない

AI基盤でクラウドとオンプレを比べたいと言われることがあります。でも、いざ比べようとすると噛み合わない。クラウドは「1分◯リクエストまで」、オンプレは「GPUを◯枚」…とそもそも単位が違うんですよね。比べづらいので、自分の整理も兼ねてまとめてみました。

結論から言うと、効くのは“場所(オンプレ/クラウド)”ではなく “GPUをどう持つか”。この軸で割り直すと、ようやく同じ土俵で比べられます。

自前で動かす環境に“メーター”はありません。 クラウドの「1分◯リクエストまで」「トークン課金」は、1台のGPUを多数の契約者で共有しているため、提供側が公平性とコスト管理のために 人為的に流量を絞っている だけです。

共有GPU(従量API) 専有GPU
制約 RPM / TPM で人為的に制限 VRAMの物理容量だけ
課金 使った分の従量 占有(借りる/買う)に対して固定的に発生
問い 「1分に何回まで?」 「メモリに収まる範囲で同時に何件さばけるか?」

ここでの RPM=Requests Per Minute(1分あたりのリクエスト数)/TPM=Tokens Per Minute(1分あたりのトークン数) です。OpenAI・Anthropic・Google・Azure OpenAI 等、主要なLLM APIがレート制限の単位として使う標準語。

つまり効いてくるのは“場所(オンプレ/クラウド)”ではなく “GPUをどう持つか”。持ち方で割ると3つに整理できます。

②賃貸③持ち家 は「GPUを占有する」点は同じで、差は 借りるか/所有するか だけ。置き場所(クラウド/オンプレ)はこれとは別の軸です(②はクラウドでもオンプレのリース/レンタルでも成立します)。


結局いくら? ── 3つの持ち方と料金の出方

同じモデルでも“持ち方”で月額の出方が変わります。

① ホテル(従量API)   月額 ≒ 単価(¥/1Mトークン) × 月間トークン量
② 賃貸(GPUを借りる) 月額 ≒ 時間単価(¥/GPU·h) × 稼働h × 枚数      ※常時 ≒ 720h/月
③ 持ち家(オンプレ)   月額 ≒ ハード費 ÷ 償却月数 + 電力 + 運用

※ 場所代(データセンター/サーバルームの費用)は上の式に含めていません。 置き方で出方が変わります。

  • ② 賃貸:クラウド(GPUaaS)なら時間単価に場所代が内包されている(だから身軽)。オンプレでGPUだけ借りる場合は場所は別途。
  • ③ 持ち家:自社サーバルームなら内部費用、コロケーション(DC借り)なら月額(ラック・電力・冷却・回線)がのしかかる。つまり③でもコロケなら“場所は賃貸”という入れ子になる。
  • 電力:DCでは空調などの付帯設備のぶん、実消費より増えます。この効率を PUE(Power Usage Effectiveness=施設全体の消費電力 ÷ IT機器の消費電力) と呼び、現実的には 1.4〜1.6倍 程度になることが多い(PUE=1.0が理想)。

軸ごとに並べるとこうなります。

比べる軸 ① ホテル(従量) ② 賃貸(専有・借) ③ 持ち家(専有・買)
課金の型 使った分の従量 時間課金(立てっぱなしで発生) 初期投資+固定費
上限の正体 TPM / RPM で人為的に制限 VRAMの物理容量だけ VRAMの物理容量だけ
追加1トークンの費用 使うほど線形に増える 容量内ならほぼゼロ 容量内ならほぼゼロ
初期コスト・コミット ゼロ・即時・撤退自由 小・即時・撤退は軽い 要・調達待ち・撤退は重い
データの所在 外部(提供者側) 自社外(借り先の設備) 手元(自社)
向くケース 低稼働・試験導入・スパイク 即時専有・短中期・撤退余地 常時高稼働・機密・長期

ざっくりの使い分けはこれだけです。

  • たまに使う/低稼働 → ① 従量が圧倒的に安い
  • 常時べったり・長期 → ③ 所有が最安(使うほど1トークン単価が下がる)
  • すぐ始めたい・撤退余地が要る → ② 借りるが中間

価格に乗らない観点 ── 所有 ≠ コントロール

費用比較だけで決められない軸もあります。カギは 「所有している」と「コントロールできる」は別 ということ。たとえば②賃貸で専有しても、それが外資クラウドなら契約は外資法の管轄下にあり、いざという時の強制開示までは止められません。

金額では測れない軸を、4つだけ挙げます。

  • データ主権:所在・アクセス権・使われ方を握れるか。強制開示や学習利用を止められるか。
  • インフラ主権:GPUの割当・停止をベンダー任せにしないか。
  • モデル主権:重みが手元にあるか。ベンダーがモデルを廃止・変更しても困らないか。
  • 運用主権:起動・停止・変更を自分で決められるか。値上げや突然のEOLに振り回されないか。

加えて 規制要件 は「安いか」ではなく 「満たすか/満たさないか」の二値。データが法的主権下にあるか(FISC・ISMAP 等)、法的な枠組みに適合するか、が採否を直接決めることがあります。

※ ここは深入りしません。「コストの裏に、金額に出ない制約がある」とだけ押さえれば十分です。


本記事は2026年6月時点の情報に基づく机上での整理です。型番・価格・モデル名は時点依存であり、最新は各一次情報をご確認ください。

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?