0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

TPU v7・Trainium2・Maia・MTIA、それでもNVIDIAは倒せない — 2026年AI半導体は『置き換え』ではなく『分業』に向かう

0
Posted at

🧮 「カスタムシリコンが NVIDIA を倒す」予測の答え合わせ

2024〜2026年、Google TPU v7 (Ironwood)、AWS Trainium2/3、Microsoft Maia 100/200、Meta MTIA v3 と、ハイパースケーラ各社の AI 専用カスタムシリコンが揃って世代更新を遂げた。「NVIDIA 独占の終わり」という見出しが何度も出た。

それでも、2026年の現実は: NVIDIA データセンター GPU の供給は依然として品薄で、Blackwell B200 ベースの DGX システムは数か月の納期待ち、CoWoS-L 容量の70%以上を NVIDIA が占める状況が続いている (TrendForce 2025/12)。

カスタムシリコンは増えた。なのに NVIDIA は売り切れている。これは「カスタムが NVIDIA を倒せない」のか、それとも別のことが起きているのか。本稿では、これを「置き換えではなく分業」という視点で読み解く。

注: 本稿はあくまで個人の考察・オピニオンを含む。Tier1 ハイパースケーラ各社の公式発表・公開ベンチマーク・市場レポートをベースにしているが、未公開部分の推測も混じる。


🏟 プレイヤー比較 — 2026年カスタムシリコンの現在地

各社の最新世代を、公開情報ベースで並べる。数値はピーク性能で、実効性能ではない点に注意。

チップ 世代 プロセス 主用途 メモリ 帯域 TDP (推定)
NVIDIA B200 (Blackwell) 2024年〜 TSMC N4P 学習+推論 HBM3E 192GB ~8 TB/s ~1000W
NVIDIA Vera Rubin 2026後半〜 TSMC N3P 学習+推論 HBM4 ~288GB ~13 TB/s ~1500-1800W
Google TPU v7 (Ironwood) 2025〜 TSMC N3 推論特化 HBM3 192GB ~7.4 TB/s ~600W
AWS Trainium2 2024〜 TSMC N5 学習+推論 HBM3 96GB ~2.9 TB/s ~700W
Microsoft Maia 100 2024〜 TSMC N5 推論特化 HBM2E 64GB ~1.6 TB/s ~700W
Meta MTIA v3 2025〜 TSMC N4 推論+ランキング HBM3 256GB ~5 TB/s ~600W

ここから読み取れる事実は3つある。

事実1: カスタム勢は『推論特化』に寄っている。 Google TPU v7、Microsoft Maia、Meta MTIA は明示的に推論ワークロードに最適化されている。学習の主役は NVIDIA、というのが暗黙の前提になっている。

事実2: メモリ帯域では NVIDIA がまだ一段上。 B200 の8 TB/s、Vera Rubin の13 TB/s に対して、カスタム勢の最大は TPU v7 の~7.4 TB/s。LLM 推論はメモリ帯域律速のワークロードが多いため、この差は実効性能に直結する。

事実3: 電力効率では NVIDIA が劣り、カスタムが勝つケースもある。 推論あたりの J/token で見ると、Google TPU v7 や Maia は NVIDIA B200 より20-40%効率的との報告がある (Google Cloud Next 2025、Microsoft Build 2025発表)。ただし測定条件が各社揃っていないため、比較は注意が必要。


🔬 技術的差別化 — なぜ「特化型」が勝てる領域がある

カスタムシリコンが NVIDIA より速いケースがあるなら、なぜ全部カスタムにしないのか。理由は3つある。

ワークロードプロファイルの固定化

カスタムシリコンは「特定の演算パターン」に最適化される。例えば Google TPU は systolic array (シストリックアレイ) で行列乗算に特化、Meta MTIA はランキングモデル (DLRM 系) のスパース計算に特化している。

特化が刺さる場面では NVIDIA より速い。だが LLM のアーキテクチャが変わるたびに(Transformer → Mamba/State Space Model のような)、特化チップは追従コストが大きい。

NVIDIA H100/B200 の強みは「Transformer 含めて、まだ見ぬ次のアーキテクチャにも CUDA で書き直せば動く」汎用性。これは技術的差別化ではなく、経路依存の優位だ。CUDA エコシステムに10年積み上がったライブラリ、最適化、開発者の知識。これを置き換えるコストが、カスタムシリコンの数値性能優位を上回る場面が多い。

インターコネクトの非対称性

LLM 学習は数千〜数万チップで分散する。このとき重要なのがチップ間インターコネクトだ。

インターコネクト ベンダー 帯域 (チップ間) スケール上限
NVLink 5 NVIDIA 1.8 TB/s 72 GPU (NVL72)
NVLink Switch + Infiniband NVIDIA ~1.8 TB/s + 800Gbps 数千GPU
ICI (Inter-Chip Interconnect) Google TPU ~600 GB/s 8960 chips (TPU v5p Pod)
NeuronLink AWS Trainium ~1.5 TB/s 64 chips (UltraServer)
Maia I/O Microsoft 未公開 不明

ここで TPU の優位が見える: Pod スケールで一体運用可能な台数が NVIDIA より大きい。ただし、これは Google が自社データセンター内に閉じた最適化ができるからこそで、汎用クラウドでは再現しにくい。

NVIDIA は「どの企業のデータセンターでも、汎用ネットワークで動く」設計を取らざるを得ないため、最大密度では TPU に負ける。だが汎用性で勝つ。これも分業の一形態だ。

ソフトウェアスタックの『使い手』問題

カスタムシリコンが理論性能を出すには、専用コンパイラ・専用ライブラリ・専用デバッガが必要だ。

  • TPU: XLA + Pallas + JAX エコシステム
  • Trainium: Neuron SDK + PyTorch XLA
  • Maia: ONNX Runtime + Microsoft 独自ランタイム

これらは自社内では成熟しているが、外部開発者にとっては学習コストが高い。だから:

  • Google 社内では TPU が圧倒的優位
  • AWS Bedrock 内では Trainium が安価で良い選択
  • Microsoft Azure ML では Maia が有利

しかし、「どのクラウドでも動かしたい」「ローカルでも検証したい」「論文の実装を試したい」という汎用ユースケースでは、CUDA + NVIDIA GPU が依然として唯一の現実解だ。


💰 経済学 — なぜハイパースケーラだけがカスタムを作れるのか

カスタムシリコン開発には、世代あたり数千億円規模の投資が必要だ。設計、検証、ファブ確保 (TSMC の N3/N4 は争奪戦)、量産化、ソフトウェアスタック開発、すべて足し上げると数年スパンの巨額投資になる。

これを回収するには、年間で数十万〜数百万チップを自社内で消費する必要がある。Google、AWS、Microsoft、Meta はそれぞれ自社サービス (検索、AWS Bedrock、Azure OpenAI、レコメンド) で大量消費するため成立する。Tier 2 以下のクラウドや、企業内 AI 部門にはこの規模感は取れない。

「自社シリコン」の3つのメリット

  1. NVIDIA 依存からの解放 — 一社のサプライチェーンに首根っこを掴まれない
  2. TCO 削減 — NVIDIA のマージン分を内部化できる (TPU は推論コストで NVIDIA H100 比 2-3倍効率と Google が主張)
  3. ワークロード固有の最適化 — 自社の主要モデルに特化できる

「自社シリコン」の3つのリスク

  1. アーキテクチャ転換時の負債 — Transformer から次世代モデルへの移行で設計が無効化
  2. エコシステム孤立 — 開発者教育、外部ベンダー対応、論文実装の追従コスト
  3. NVIDIA との並行運用が前提 — 完全置き換えは難しく、結果として両方持つことになる

ここで重要なのは、3つ目のリスクが本質的にカスタムを「補完」に位置付ける点だ。Google、AWS、Microsoft も、社外向けクラウドサービスでは NVIDIA GPU を併売している。Trainium だけ、Maia だけ、では顧客は満足しない。


🗺 棲み分け予測 — 「分業」の地図

ここまでの観察を統合すると、2026年から数年の構図はこうなる。

領域 主役 補完 理由
大規模学習 (10^25 FLOPs超) NVIDIA B200/Vera Rubin TPU v7p (Google内のみ) 汎用性 + アーキテクチャ追従能力
大規模推論 (Tier1 内製) Custom Silicon NVIDIA コスト効率優位
大規模推論 (汎用クラウド) NVIDIA (なし) エコシステム互換性
エッジ AI / 個人開発 Apple Silicon、AMD/Intel NPU NVIDIA RTX TDP制約、価格
ローカル LLM (実機検証) NVIDIA RTX 4060/5060 Apple Silicon CUDA エコシステム

注目すべきは**「ローカル LLM」のセル**だ。本ブログの主題である RTX 4060 8GB ローカル運用は、上記分業構造の中では「個人開発・実機検証」象限に位置する。

ここでカスタムシリコンは登場しない。理由は単純で、個人がカスタムシリコンを買う経済学が成立しないからだ。Trainium も Maia も MTIA も、原則として自社クラウドサービス経由でしか触れない。

つまり:

  • クラウド大規模 → カスタムが侵食
  • クラウド汎用 → NVIDIA 維持
  • 学習 → NVIDIA 維持
  • ローカル → NVIDIA + Apple のみ

これは「NVIDIA の市場が縮小している」のではなく、「市場全体が拡大する中で、NVIDIA が抑える領域とカスタムが抑える領域が分かれている」と解釈する方が正確だ。


🔮 2030年に向けた個人的な予測

ここからは個人の考察 (オピニオン)。Lv4 (公開データからの外挿) で書く。

1. NVIDIA データセンター GPU の絶対量は増え続ける

カスタムシリコンが増えても、AI 推論需要全体の伸びがそれを上回っているため、NVIDIA の絶対販売量は減らない。シェア%は徐々に下がるかもしれないが、絶対数では成長を続ける。CoWoS 容量も同じ構造で、2027年以降も品薄が続く。

2. カスタムシリコンの「お試し」は増える

Tier 2 クラウド (Cloudflare、Lambda、CoreWeave 等) は自社シリコン開発の体力がない。だが、Tier 1 ハイパースケーラの「カスタム成功」を見て、NVIDIA だけでは不安、という心理は広がっている。AMD MI300/MI400、Intel Gaudi3 のような「準カスタム」(=NVIDIA代替の汎用 AI チップ) が、Tier 2 で採用される可能性が高い。

3. ローカル LLM の戦況は別軸

カスタムシリコンの議論は基本「クラウド」に閉じている。ローカル (RTX 4060 や Apple Silicon) の戦況は、メモリ帯域・電力効率・価格・サイズの物理制約で動いており、クラウド側のトレンドは直接波及しない。本ブログが扱っている「8GB VRAM の物理限界」は、TPU v8 が出てもほぼ無関係に進む。

4. 「分業」が固定化する条件

「分業」が崩れるとすれば、以下のどれかが起きたとき:

  • CUDA 互換のオープン規格が普及: AMD ROCm が NVIDIA CUDA エコシステムを完全互換できれば、ハイパースケーラは「NVIDIA 必須」から解放される
  • アーキテクチャの大転換: Transformer 後の主流モデル (Mamba、Diffusion-LLM、Liquid Networks 等) が、NVIDIA の現行アーキテクチャに合わない方向に振れた場合
  • TSMC 以外のファブが先進プロセスで競争力を持つ: Samsung、Intel が N3/N2 で TSMC に追いつき、複数ファブで並行生産が可能になれば、サプライ独占が緩和される

これらは数年スパンの話で、2026-2028年の市場構造は「分業」のままだろう。


📌 8GB VRAM ブロガーの視点

最後に個人的観点を一つ。

私の手元には RTX 4060 8GB と Apple M4 がある。これらで動く LLM 推論の世界は、TPU v7 や Trainium2 とは全く別の物理空間にいる。8GB の VRAM 制約は CUDA エコシステムの存在を前提にした制約であり、もし NVIDIA が消えればこの制約自体が意味を失う。

カスタムシリコンの議論を読みながら気付いたのは、「ローカル LLM の物理限界は、クラウド AI の競争構造とは独立している」ということだ。クラウドで NVIDIA が負けても、ローカルでは RTX 4060 が現役であり続ける。逆に、クラウドで NVIDIA が圧勝しても、ローカルの 8GB 制約は変わらない。

この独立性が、本ブログが「8GB VRAM」というニッチに張り続ける根拠でもある。クラウド側のトレンドに振り回されず、ローカルの物理制約を深掘りする方が、長期的にはコンテンツの価値が劣化しない。


まとめ

カスタムシリコンは NVIDIA を倒さない。倒せないのは技術的劣位ではなく、汎用性とエコシステム互換性のコストが NVIDIA に有利に働き続けているから。代わりに、市場が拡大する中で「NVIDIA が抑える領域」と「カスタムが抑える領域」が分かれていく。これが「分業」の本体だ。

2026年の現状を一言で言うなら: NVIDIA は売り切れ、カスタムは増産中、市場は両方欲している

そして個人レベル(本ブログのスコープ)では、この構造はほぼ無関係。8GB VRAM の物理限界に向き合い続ける。それが個人開発者の現実的な戦略だ。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?