この連載について
「自前でLLMを動かすと、いくら/何人で使えるか/何が載るか」を現場で説明できる粒度で整理する3部構成です。
型番・モデル名・価格は 2026年6月時点 のスナップショット(ここが一番早く陳腐化します)。
3部構成の第1回。まず GPUの「持ち方」と価格の出方 を整理します。「載るか・速いか」は ② キャパ・速度編、「どのモデルをどう動かすか」は ③ モデル・構成編で扱います。
前提:これは「オンプレか、クラウドか」の話じゃない
AI基盤でクラウドとオンプレを比べたいと言われることがあります。でも、いざ比べようとすると噛み合わない。クラウドは「1分◯リクエストまで」、オンプレは「GPUを◯枚」…とそもそも単位が違うんですよね。比べづらいので、自分の整理も兼ねてまとめてみました。
結論から言うと、効くのは“場所(オンプレ/クラウド)”ではなく “GPUをどう持つか”。この軸で割り直すと、ようやく同じ土俵で比べられます。
自前で動かす環境に“メーター”はありません。 クラウドの「1分◯リクエストまで」「トークン課金」は、1台のGPUを多数の契約者で共有しているため、提供側が公平性とコスト管理のために 人為的に流量を絞っている だけです。
| 共有GPU(従量API) | 専有GPU | |
|---|---|---|
| 制約 | RPM / TPM で人為的に制限 | VRAMの物理容量だけ |
| 課金 | 使った分の従量 | 占有(借りる/買う)に対して固定的に発生 |
| 問い | 「1分に何回まで?」 | 「メモリに収まる範囲で同時に何件さばけるか?」 |
ここでの RPM=Requests Per Minute(1分あたりのリクエスト数)/TPM=Tokens Per Minute(1分あたりのトークン数) です。OpenAI・Anthropic・Google・Azure OpenAI 等、主要なLLM APIがレート制限の単位として使う標準語。
つまり効いてくるのは“場所(オンプレ/クラウド)”ではなく “GPUをどう持つか”。持ち方で割ると3つに整理できます。
②賃貸 と ③持ち家 は「GPUを占有する」点は同じで、差は 借りるか/所有するか だけ。置き場所(クラウド/オンプレ)はこれとは別の軸です(②はクラウドでもオンプレのリース/レンタルでも成立します)。
結局いくら? ── 3つの持ち方と料金の出方
同じモデルでも“持ち方”で月額の出方が変わります。
① ホテル(従量API) 月額 ≒ 単価(¥/1Mトークン) × 月間トークン量
② 賃貸(GPUを借りる) 月額 ≒ 時間単価(¥/GPU·h) × 稼働h × 枚数 ※常時 ≒ 720h/月
③ 持ち家(オンプレ) 月額 ≒ ハード費 ÷ 償却月数 + 電力 + 運用
※ 場所代(データセンター/サーバルームの費用)は上の式に含めていません。 置き方で出方が変わります。
- ② 賃貸:クラウド(GPUaaS)なら時間単価に場所代が内包されている(だから身軽)。オンプレでGPUだけ借りる場合は場所は別途。
- ③ 持ち家:自社サーバルームなら内部費用、コロケーション(DC借り)なら月額(ラック・電力・冷却・回線)がのしかかる。つまり③でもコロケなら“場所は賃貸”という入れ子になる。
- 電力:DCでは空調などの付帯設備のぶん、実消費より増えます。この効率を PUE(Power Usage Effectiveness=施設全体の消費電力 ÷ IT機器の消費電力) と呼び、現実的には 1.4〜1.6倍 程度になることが多い(PUE=1.0が理想)。
軸ごとに並べるとこうなります。
| 比べる軸 | ① ホテル(従量) | ② 賃貸(専有・借) | ③ 持ち家(専有・買) |
|---|---|---|---|
| 課金の型 | 使った分の従量 | 時間課金(立てっぱなしで発生) | 初期投資+固定費 |
| 上限の正体 | TPM / RPM で人為的に制限 | VRAMの物理容量だけ | VRAMの物理容量だけ |
| 追加1トークンの費用 | 使うほど線形に増える | 容量内ならほぼゼロ | 容量内ならほぼゼロ |
| 初期コスト・コミット | ゼロ・即時・撤退自由 | 小・即時・撤退は軽い | 要・調達待ち・撤退は重い |
| データの所在 | 外部(提供者側) | 自社外(借り先の設備) | 手元(自社) |
| 向くケース | 低稼働・試験導入・スパイク | 即時専有・短中期・撤退余地 | 常時高稼働・機密・長期 |
ざっくりの使い分けはこれだけです。
- たまに使う/低稼働 → ① 従量が圧倒的に安い
- 常時べったり・長期 → ③ 所有が最安(使うほど1トークン単価が下がる)
- すぐ始めたい・撤退余地が要る → ② 借りるが中間
価格に乗らない観点 ── 所有 ≠ コントロール
費用比較だけで決められない軸もあります。カギは 「所有している」と「コントロールできる」は別 ということ。たとえば②賃貸で専有しても、それが外資クラウドなら契約は外資法の管轄下にあり、いざという時の強制開示までは止められません。
金額では測れない軸を、4つだけ挙げます。
- データ主権:所在・アクセス権・使われ方を握れるか。強制開示や学習利用を止められるか。
- インフラ主権:GPUの割当・停止をベンダー任せにしないか。
- モデル主権:重みが手元にあるか。ベンダーがモデルを廃止・変更しても困らないか。
- 運用主権:起動・停止・変更を自分で決められるか。値上げや突然のEOLに振り回されないか。
加えて 規制要件 は「安いか」ではなく 「満たすか/満たさないか」の二値。データが法的主権下にあるか(FISC・ISMAP 等)、法的な枠組みに適合するか、が採否を直接決めることがあります。
※ ここは深入りしません。「コストの裏に、金額に出ない制約がある」とだけ押さえれば十分です。
本記事は2026年6月時点の情報に基づく机上での整理です。型番・価格・モデル名は時点依存であり、最新は各一次情報をご確認ください。