AIバブルが弾けても8GB VRAMは止まらない

Posted at 2026-05-01

バブル崩壊を煽る人たちは何を見ているのか

2026年Q1、AIバブル崩壊論が再燃している。ITmediaの特集、日経のAIスタートアップ淘汰記事、Xのタイムラインに流れるVC撤退のニュース。Dot-comバブルとの類似を指摘する声も出てきた。

彼らの主張は3つに集約される。

AI関連企業の株価が実態から乖離している — NVIDIAのP/Eレシオはピーク時60超。売上成長が鈍化すれば調整は不可避
収益化が追いついていない — GPT-4oの月額$20で利益が出ているのか。APIコールあたりの推論コストは依然として高い
ハイプ疲れ — 毎週の新モデル発表に市場が鈍感になりつつある

これ自体は正しい。VC資金の流入ペースが落ち、AIスタートアップの統廃合が進むのはほぼ確実だろう。

ただし、この議論には致命的な盲点がある。バブルの定義がデータセンタースケールの話に閉じている。

APIに依存しているエンジニアは確かに影響を受ける

正直に言う。バブル崩壊の影響がゼロだとは思っていない。

APIベースでプロダクトを組んでいるエンジニアにとって、以下のシナリオは現実的なリスクだ。

API価格の急騰: OpenAIが今のGPT-4oの$2.50/1M input tokensを維持できなくなる可能性。投資家の金が尽きれば、サービスの持ち出し価格が是正される
サービス終了・統廃合: Anthropic、Mistral、Cohere——これらのうち2026年末に全社残っている保証はない。依存先のAPIが消えるリスク
モデル品質の停滞: 学習に数億ドルかかるフロンティアモデルの開発ペースが鈍化する可能性

特に3つ目は無視できない。Claude 4のようなフロンティアモデルと、ローカルで動く8B〜32Bモデルの間には品質の壁がある。学習データ量、RLHF（人間フィードバック強化学習）の規模、評価パイプラインの投資——これらは桁が違う。この差がローカルモデルだけで埋まるとは正直思っていない。少なくとも現状のTransformerアーキテクチャでは。

ここまでが、バブル崩壊論が正しい範囲だ。

ここから先が、8GB VRAMの住人の話

RTX 4060 8GB。M4 Mac mini 16GB。この記事を書いている環境がそのまま反論の根拠になる。

ローカルLLMの世界では、バブルの崩壊は上流の資金フローの問題であって、俺たちの推論パイプラインの問題ではない。

なぜか。構造的に3つの理由がある。

理由1: モデルの重みはダウンロード済みの物理ファイル

Qwen2.5-7B-Q4_K_M.gguf。これはHugging Faceからダウンロードした4.7GBのバイナリファイルだ。ローカルディスクに存在する。

Alibaba CloudがQwenチームを解散させても、このファイルは消えない。

# ローカルに保存済みのモデル一覧
ls -lh ~/models/*.gguf

# 実際の出力例 (RTX 4060 8GB環境)
# -rw-r--r-- 1 user 4.7G qwen2.5-7b-instruct-q4_k_m.gguf
# -rw-r--r-- 1 user  17G qwen3-30b-a3b-q4_k_m.gguf  (MoE: 活性3B)
# -rw-r--r-- 1 user 4.6G llama-3.1-8b-instruct-q4_k_m.gguf
# -rw-r--r-- 1 user  19G qwen2.5-32b-instruct-q4_k_m.gguf

# 合計: 45GB — 64GBのmicroSDに収まる

APIのエンドポイントは企業の経営判断で消える。GGUFファイルはSSDが壊れない限り消えない。この差は決定的だ。

理由2: 推論エンジンはオープンソースで分散開発されている

llama.cppのGitHubリポジトリには700人以上のコントリビューターがいる。Meta、Google、MicrosoftのどれかがAI部門を縮小しても、Georgi GerganovがMacBookでコードを書き続ける限り、llama.cppは死なない。

# llama.cppのリリース頻度 (2025-2026)
# b8233 (2026-03) — MoEモデル最適化
# b8102 (2026-03) — Flash Attention v2改善
# b7955 (2026-02) — KVキャッシュ圧縮改善
# b7811 (2026-02) — INT4 GEMM kernel最適化

# 2週間に1回以上のペースでパフォーマンスが改善されている
# この開発速度は企業の資金繰りとは無関係

しかも重要なのは、llama.cppの改善が同じハードウェア上での性能を引き上げ続けている点だ。新しいGPUを買わなくても、半年前より速く推論できる。RTX 4060 8GBでQwen2.5-32Bを動かしたとき、最初はngl=20で8.2 tok/sだった。llama.cppのFlash Attention改善後、同じ設定で10.8 tok/sに上がった。ハードウェアは同じだ。ソフトウェアが無料でアップグレードされた。

理由3: 量子化技術はアルゴリズムであり、ライセンスではない

Q4_K_M、Q5_K_S、IQ4_XS——これらは数学だ。特許で囲い込まれたプロプライエタリ技術ではなく、論文として公開され、OSSとして実装されている。

モデル                            サイズ     8GB VRAM
────────────────────────────────────────────────────────
Qwen2.5-7B FP16                   14.0 GB    載らない
Qwen2.5-7B Q4_K_M                  4.7 GB    GPU完結
Qwen2.5-32B FP16                  64.0 GB    載らない
Qwen2.5-32B Q4_K_M                18.5 GB    CPU併用で動く
Qwen3-30B-A3B Q4_K_M (MoE)       17.0 GB    CPU併用で実用可

FP16→Q4_K_Mで約3倍の圧縮。これはAlibabaの経営とは何の関係もない。

バブルが弾けてAI企業の半数が倒産しても、Q4_K_Mの量子化アルゴリズムは消えない。GGMLフォーマットの仕様は消えない。llama.cppのバイナリは消えない。

バブルの本当のリスクは別のところにある

ここまで楽観的に書いたが、ローカルLLMにも弱点はある。バブルとは違う角度のリスクだ。

リスク1: 新規モデルの学習が鈍化する

ローカルで動かすモデルの重みは、どこかの企業が大量のGPUクラスタで学習した成果物だ。QwenシリーズはAlibabaの計算資源、Llamaの次期バージョンはMetaの計算資源に依存している。

バブル崩壊でこれらの企業がAI投資を絞れば、新しいモデルが出なくなる。既存モデルは動き続けるが、進化が止まるリスクはある。

ただし現実的には、MetaもAlibabaもGoogleも、AI部門は本業のインフラの一部であって純粋なVC投資ではない。スタートアップが死んでも、ビッグテックのオープンモデル開発が即座に止まるとは考えにくい。Meta社内のLlamaはInstagramとWhatsAppの推論に使われている。社内需要がある限り、開発は続く。

リスク2: CUDA依存

llama.cppはCPU、Metal、Vulkan、CUDAと複数バックエンドに対応しているが、RTX 4060で最速を出すにはCUDAが必要だ。

NVIDIAがCUDAのライセンスを変更する可能性はゼロではない。ただし、ROCm（AMD）とVulkanバックエンドが現実的な代替として育ちつつある。M4 Mac miniのMetalバックエンドは既にCUDAに匹敵する実用速度を出している。CUDA単一障害点のリスクは、3年前より確実に下がっている。

リスク3: 半導体サプライチェーンの分断

これが最もリアルなリスクだ。台湾有事でTSMCの工場が止まれば、GPUの供給が途絶える。既存のRTX 4060は動き続けるが、壊れたら替えがない。

このリスクに対するヘッジは簡潔だ。Intel Arcの改善を待つか、Apple Siliconに分散しておく。Intel Arcは自社ファブ（Intel Foundry）、Apple SiliconはTSMC Arizonaファブへの移行が進んでいる。完全なヘッジにはならないが、NVIDIA + 台湾TSMCの一本足よりはマシだ。

個人のAI環境をバブルプルーフにする実践

理屈はわかった、で、何をすればいいのか。

1. モデルのローカルバックアップ

使っているモデルのGGUFファイルをNAS or 外付けSSDにコピーしておく。Hugging Faceのリポジトリが消えても手元にある状態にする。

# バックアップ先: 外付けSSD
rsync -av --progress ~/models/*.gguf /mnt/backup_ssd/llm_models/

# または単純にコピー
cp ~/models/qwen3.5-9b-q4_k_m.gguf /mnt/backup_ssd/llm_models/

33GBのモデル群。64GBのmicroSDに収まる。これがバブル崩壊保険の全額だ。

2. ランタイムのピン止め

llama.cppの特定バージョンをビルド済みバイナリとして保存する。

# 動作確認済みバージョンをタグ付きでビルド・保存
cd llama.cpp
git checkout b8233
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release -j8
cp build/bin/llama-cli ~/stable_bins/llama-cli-b8233

# このバイナリは外部サービスに依存しない
# CUDA Toolkit 12.xとNVIDIAドライバがあれば動く

3. APIへの依存度を測定する

自分のワークフローのうち、API呼び出しに依存している部分をリストアップする。

[依存度チェックリスト]
□ コード補完 → Copilot (API) or ローカルFIM?
□ 文章校正 → GPT-4o (API) or ローカル9B?
□ RAG検索 → OpenAI Embeddings (API) or BGE-M3 (ローカル)?
□ 画像生成 → DALL-E (API) or SDXL (ローカル)?
□ 音声文字起こし → Whisper API or whisper.cpp (ローカル)?

APIに依存しているものをゼロにする必要はない。フロンティアAPIでしかできないタスク（超長文のCoT推論、マルチモーダル分析など）は素直にAPIを使えばいい。ただしAPIが消えたときの代替パスが存在するかを把握しておくこと。

8GBの向こう側を実測で見せる

バブル議論を実数に落とす。RTX 4060 8GBで、API代替としてどこまで使えるのか。

[RTX 4060 8GB ローカル推論ベンチマーク 2026-03]

タスク                  モデル              tok/s   品質 (主観5段階)
─────────────────────────────────────────────────────────────
コード補完 (Python)     Qwen2.5-7B Q4_K_M   32.0    ★★★★☆
技術文書要約            Qwen2.5-7B Q4_K_M   32.0    ★★★☆☆
数学的推論              Qwen2.5-32B Q4_K_M  10.8    ★★★★☆
論文読解 (RAG)          BGE-M3 + Qwen2.5-7B 28.5    ★★★☆☆
チャット対話            Qwen2.5-7B Q4_K_M   32.0    ★★★★☆

参考: Claude Sonnet 4.6 API                 ~80     ★★★★★
参考: GPT-4o API                            ~60     ★★★★★

電気代: 推論時約80-115W × 使用時間 (API課金なし、月額固定0円)

品質でフロンティアAPIに勝てるとは言わない。Claude SonnetやGPT-4oの推論能力は、ローカルの7Bモデルとは比較にならない。その差は現時点では埋まっていない。

だが、32 tok/sのコード補完が月額0円で使え、ネットワーク切断時も動き、レート制限がなく、データが手元を出ない——この構造的メリットはバブルが弾けようが弾けまいが変わらない。

バブルはデータセンターの問題だ

結局、AI バブル崩壊論のほぼ全てが、巨大資本の投資回収の話をしている。数十億ドルの学習クラスタ、数千台のH100、年間数百万ドルの電力コスト——この規模のビジネスが持続可能かどうか。

個人の8GB VRAMはその射程に入っていない。

RTX 4060は5万円で買える。M4 Mac miniは10万円で買える。モデルの重みは無料でダウンロードできる。llama.cppは無料で使える。量子化のアルゴリズムは公開論文に書いてある。

この全てが、VC資金のフローと独立して存在している。

バブルが弾けたとき、困るのはAPIの月額課金でプロダクトを運用している企業と、NVIDIAの株を持っている投資家だ。8GB VRAMでローカルLLMを回している個人エンジニアではない。

むしろバブル崩壊は、API依存のプロダクトからローカル推論への移行を加速させるかもしれない。APIの価格が上がるなら、ローカルの相対的な魅力は上がる。8GB VRAMの住人にとって、バブル崩壊は追い風ですらある。

ただし一つだけ。フロンティアモデルの進化が鈍化するリスクは本物だ。ローカルの7Bモデルが十分だと思い込んで、API経由でしか触れない最先端の推論能力を無視するのは、また別の危険だ。8GB VRAMは止まらないが、フロンティアAPIも止まっていない。両方持っておけ。

参考

RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順 — 8GB VRAMでの推論最適化の基礎
Qwen3.5の27Bが9Bに負けた RTX 4060の逆説 — 本記事のベンチマーク基盤
llama.cpp: https://github.com/ggerganov/llama.cpp
Hugging Face GGUF Models: https://huggingface.co/models?library=gguf

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up