🧮 「カスタムシリコンが NVIDIA を倒す」予測の答え合わせ
2024〜2026年、Google TPU v7 (Ironwood)、AWS Trainium2/3、Microsoft Maia 100/200、Meta MTIA v3 と、ハイパースケーラ各社の AI 専用カスタムシリコンが揃って世代更新を遂げた。「NVIDIA 独占の終わり」という見出しが何度も出た。
それでも、2026年の現実は: NVIDIA データセンター GPU の供給は依然として品薄で、Blackwell B200 ベースの DGX システムは数か月の納期待ち、CoWoS-L 容量の70%以上を NVIDIA が占める状況が続いている (TrendForce 2025/12)。
カスタムシリコンは増えた。なのに NVIDIA は売り切れている。これは「カスタムが NVIDIA を倒せない」のか、それとも別のことが起きているのか。本稿では、これを「置き換えではなく分業」という視点で読み解く。
注: 本稿はあくまで個人の考察・オピニオンを含む。Tier1 ハイパースケーラ各社の公式発表・公開ベンチマーク・市場レポートをベースにしているが、未公開部分の推測も混じる。
🏟 プレイヤー比較 — 2026年カスタムシリコンの現在地
各社の最新世代を、公開情報ベースで並べる。数値はピーク性能で、実効性能ではない点に注意。
| チップ | 世代 | プロセス | 主用途 | メモリ | 帯域 | TDP (推定) |
|---|---|---|---|---|---|---|
| NVIDIA B200 (Blackwell) | 2024年〜 | TSMC N4P | 学習+推論 | HBM3E 192GB | ~8 TB/s | ~1000W |
| NVIDIA Vera Rubin | 2026後半〜 | TSMC N3P | 学習+推論 | HBM4 ~288GB | ~13 TB/s | ~1500-1800W |
| Google TPU v7 (Ironwood) | 2025〜 | TSMC N3 | 推論特化 | HBM3 192GB | ~7.4 TB/s | ~600W |
| AWS Trainium2 | 2024〜 | TSMC N5 | 学習+推論 | HBM3 96GB | ~2.9 TB/s | ~700W |
| Microsoft Maia 100 | 2024〜 | TSMC N5 | 推論特化 | HBM2E 64GB | ~1.6 TB/s | ~700W |
| Meta MTIA v3 | 2025〜 | TSMC N4 | 推論+ランキング | HBM3 256GB | ~5 TB/s | ~600W |
ここから読み取れる事実は3つある。
事実1: カスタム勢は『推論特化』に寄っている。 Google TPU v7、Microsoft Maia、Meta MTIA は明示的に推論ワークロードに最適化されている。学習の主役は NVIDIA、というのが暗黙の前提になっている。
事実2: メモリ帯域では NVIDIA がまだ一段上。 B200 の8 TB/s、Vera Rubin の13 TB/s に対して、カスタム勢の最大は TPU v7 の~7.4 TB/s。LLM 推論はメモリ帯域律速のワークロードが多いため、この差は実効性能に直結する。
事実3: 電力効率では NVIDIA が劣り、カスタムが勝つケースもある。 推論あたりの J/token で見ると、Google TPU v7 や Maia は NVIDIA B200 より20-40%効率的との報告がある (Google Cloud Next 2025、Microsoft Build 2025発表)。ただし測定条件が各社揃っていないため、比較は注意が必要。
🔬 技術的差別化 — なぜ「特化型」が勝てる領域がある
カスタムシリコンが NVIDIA より速いケースがあるなら、なぜ全部カスタムにしないのか。理由は3つある。
ワークロードプロファイルの固定化
カスタムシリコンは「特定の演算パターン」に最適化される。例えば Google TPU は systolic array (シストリックアレイ) で行列乗算に特化、Meta MTIA はランキングモデル (DLRM 系) のスパース計算に特化している。
特化が刺さる場面では NVIDIA より速い。だが LLM のアーキテクチャが変わるたびに(Transformer → Mamba/State Space Model のような)、特化チップは追従コストが大きい。
NVIDIA H100/B200 の強みは「Transformer 含めて、まだ見ぬ次のアーキテクチャにも CUDA で書き直せば動く」汎用性。これは技術的差別化ではなく、経路依存の優位だ。CUDA エコシステムに10年積み上がったライブラリ、最適化、開発者の知識。これを置き換えるコストが、カスタムシリコンの数値性能優位を上回る場面が多い。
インターコネクトの非対称性
LLM 学習は数千〜数万チップで分散する。このとき重要なのがチップ間インターコネクトだ。
| インターコネクト | ベンダー | 帯域 (チップ間) | スケール上限 |
|---|---|---|---|
| NVLink 5 | NVIDIA | 1.8 TB/s | 72 GPU (NVL72) |
| NVLink Switch + Infiniband | NVIDIA | ~1.8 TB/s + 800Gbps | 数千GPU |
| ICI (Inter-Chip Interconnect) | Google TPU | ~600 GB/s | 8960 chips (TPU v5p Pod) |
| NeuronLink | AWS Trainium | ~1.5 TB/s | 64 chips (UltraServer) |
| Maia I/O | Microsoft | 未公開 | 不明 |
ここで TPU の優位が見える: Pod スケールで一体運用可能な台数が NVIDIA より大きい。ただし、これは Google が自社データセンター内に閉じた最適化ができるからこそで、汎用クラウドでは再現しにくい。
NVIDIA は「どの企業のデータセンターでも、汎用ネットワークで動く」設計を取らざるを得ないため、最大密度では TPU に負ける。だが汎用性で勝つ。これも分業の一形態だ。
ソフトウェアスタックの『使い手』問題
カスタムシリコンが理論性能を出すには、専用コンパイラ・専用ライブラリ・専用デバッガが必要だ。
- TPU: XLA + Pallas + JAX エコシステム
- Trainium: Neuron SDK + PyTorch XLA
- Maia: ONNX Runtime + Microsoft 独自ランタイム
これらは自社内では成熟しているが、外部開発者にとっては学習コストが高い。だから:
- Google 社内では TPU が圧倒的優位
- AWS Bedrock 内では Trainium が安価で良い選択
- Microsoft Azure ML では Maia が有利
しかし、「どのクラウドでも動かしたい」「ローカルでも検証したい」「論文の実装を試したい」という汎用ユースケースでは、CUDA + NVIDIA GPU が依然として唯一の現実解だ。
💰 経済学 — なぜハイパースケーラだけがカスタムを作れるのか
カスタムシリコン開発には、世代あたり数千億円規模の投資が必要だ。設計、検証、ファブ確保 (TSMC の N3/N4 は争奪戦)、量産化、ソフトウェアスタック開発、すべて足し上げると数年スパンの巨額投資になる。
これを回収するには、年間で数十万〜数百万チップを自社内で消費する必要がある。Google、AWS、Microsoft、Meta はそれぞれ自社サービス (検索、AWS Bedrock、Azure OpenAI、レコメンド) で大量消費するため成立する。Tier 2 以下のクラウドや、企業内 AI 部門にはこの規模感は取れない。
「自社シリコン」の3つのメリット
- NVIDIA 依存からの解放 — 一社のサプライチェーンに首根っこを掴まれない
- TCO 削減 — NVIDIA のマージン分を内部化できる (TPU は推論コストで NVIDIA H100 比 2-3倍効率と Google が主張)
- ワークロード固有の最適化 — 自社の主要モデルに特化できる
「自社シリコン」の3つのリスク
- アーキテクチャ転換時の負債 — Transformer から次世代モデルへの移行で設計が無効化
- エコシステム孤立 — 開発者教育、外部ベンダー対応、論文実装の追従コスト
- NVIDIA との並行運用が前提 — 完全置き換えは難しく、結果として両方持つことになる
ここで重要なのは、3つ目のリスクが本質的にカスタムを「補完」に位置付ける点だ。Google、AWS、Microsoft も、社外向けクラウドサービスでは NVIDIA GPU を併売している。Trainium だけ、Maia だけ、では顧客は満足しない。
🗺 棲み分け予測 — 「分業」の地図
ここまでの観察を統合すると、2026年から数年の構図はこうなる。
| 領域 | 主役 | 補完 | 理由 |
|---|---|---|---|
| 大規模学習 (10^25 FLOPs超) | NVIDIA B200/Vera Rubin | TPU v7p (Google内のみ) | 汎用性 + アーキテクチャ追従能力 |
| 大規模推論 (Tier1 内製) | Custom Silicon | NVIDIA | コスト効率優位 |
| 大規模推論 (汎用クラウド) | NVIDIA | (なし) | エコシステム互換性 |
| エッジ AI / 個人開発 | Apple Silicon、AMD/Intel NPU | NVIDIA RTX | TDP制約、価格 |
| ローカル LLM (実機検証) | NVIDIA RTX 4060/5060 | Apple Silicon | CUDA エコシステム |
注目すべきは**「ローカル LLM」のセル**だ。本ブログの主題である RTX 4060 8GB ローカル運用は、上記分業構造の中では「個人開発・実機検証」象限に位置する。
ここでカスタムシリコンは登場しない。理由は単純で、個人がカスタムシリコンを買う経済学が成立しないからだ。Trainium も Maia も MTIA も、原則として自社クラウドサービス経由でしか触れない。
つまり:
- クラウド大規模 → カスタムが侵食
- クラウド汎用 → NVIDIA 維持
- 学習 → NVIDIA 維持
- ローカル → NVIDIA + Apple のみ
これは「NVIDIA の市場が縮小している」のではなく、「市場全体が拡大する中で、NVIDIA が抑える領域とカスタムが抑える領域が分かれている」と解釈する方が正確だ。
🔮 2030年に向けた個人的な予測
ここからは個人の考察 (オピニオン)。Lv4 (公開データからの外挿) で書く。
1. NVIDIA データセンター GPU の絶対量は増え続ける
カスタムシリコンが増えても、AI 推論需要全体の伸びがそれを上回っているため、NVIDIA の絶対販売量は減らない。シェア%は徐々に下がるかもしれないが、絶対数では成長を続ける。CoWoS 容量も同じ構造で、2027年以降も品薄が続く。
2. カスタムシリコンの「お試し」は増える
Tier 2 クラウド (Cloudflare、Lambda、CoreWeave 等) は自社シリコン開発の体力がない。だが、Tier 1 ハイパースケーラの「カスタム成功」を見て、NVIDIA だけでは不安、という心理は広がっている。AMD MI300/MI400、Intel Gaudi3 のような「準カスタム」(=NVIDIA代替の汎用 AI チップ) が、Tier 2 で採用される可能性が高い。
3. ローカル LLM の戦況は別軸
カスタムシリコンの議論は基本「クラウド」に閉じている。ローカル (RTX 4060 や Apple Silicon) の戦況は、メモリ帯域・電力効率・価格・サイズの物理制約で動いており、クラウド側のトレンドは直接波及しない。本ブログが扱っている「8GB VRAM の物理限界」は、TPU v8 が出てもほぼ無関係に進む。
4. 「分業」が固定化する条件
「分業」が崩れるとすれば、以下のどれかが起きたとき:
- CUDA 互換のオープン規格が普及: AMD ROCm が NVIDIA CUDA エコシステムを完全互換できれば、ハイパースケーラは「NVIDIA 必須」から解放される
- アーキテクチャの大転換: Transformer 後の主流モデル (Mamba、Diffusion-LLM、Liquid Networks 等) が、NVIDIA の現行アーキテクチャに合わない方向に振れた場合
- TSMC 以外のファブが先進プロセスで競争力を持つ: Samsung、Intel が N3/N2 で TSMC に追いつき、複数ファブで並行生産が可能になれば、サプライ独占が緩和される
これらは数年スパンの話で、2026-2028年の市場構造は「分業」のままだろう。
📌 8GB VRAM ブロガーの視点
最後に個人的観点を一つ。
私の手元には RTX 4060 8GB と Apple M4 がある。これらで動く LLM 推論の世界は、TPU v7 や Trainium2 とは全く別の物理空間にいる。8GB の VRAM 制約は CUDA エコシステムの存在を前提にした制約であり、もし NVIDIA が消えればこの制約自体が意味を失う。
カスタムシリコンの議論を読みながら気付いたのは、「ローカル LLM の物理限界は、クラウド AI の競争構造とは独立している」ということだ。クラウドで NVIDIA が負けても、ローカルでは RTX 4060 が現役であり続ける。逆に、クラウドで NVIDIA が圧勝しても、ローカルの 8GB 制約は変わらない。
この独立性が、本ブログが「8GB VRAM」というニッチに張り続ける根拠でもある。クラウド側のトレンドに振り回されず、ローカルの物理制約を深掘りする方が、長期的にはコンテンツの価値が劣化しない。
まとめ
カスタムシリコンは NVIDIA を倒さない。倒せないのは技術的劣位ではなく、汎用性とエコシステム互換性のコストが NVIDIA に有利に働き続けているから。代わりに、市場が拡大する中で「NVIDIA が抑える領域」と「カスタムが抑える領域」が分かれていく。これが「分業」の本体だ。
2026年の現状を一言で言うなら: NVIDIA は売り切れ、カスタムは増産中、市場は両方欲している。
そして個人レベル(本ブログのスコープ)では、この構造はほぼ無関係。8GB VRAM の物理限界に向き合い続ける。それが個人開発者の現実的な戦略だ。