2025 年 12 月から 2026 年初頭にかけて、奇妙なほど一致した 200 億ドルの取引が 2 件起きた。NVIDIA が Groq を取得し、OpenAI が Cerebras と契約した。別々のディールに見えるが、両方とも AI 推論市場の同じ地殻変動を映している。
2025 年 12 月、NVIDIA は Groq の資産を約 200 億ドルで取得すると発表した (CNBC)。Mellanox の 70 億ドルを超え、NVIDIA 史上最大の取引になった。
ほぼ同時期、OpenAI は Cerebras と 200 億ドル超の Master Relationship Agreement を締結した (2025 年末締結、2026 年公表)。750 メガワット分の推論キャパシティ、2030 年までに 2 ギガワットまで拡張可能 (Cerebras IPO 報道)。OpenAI は Cerebras 株の最大 10% をワラントで取得する権利も含まれている。AWS Bedrock との Cerebras 統合は 2026 年 3 月に別途発表された。私は半導体ファブ周辺の仕事をしていたので、似た「市場が静かに転換する瞬間」を 2018-2020 年の 7nm 競争で見た覚えがある。今回はもっと早い。
この記事では、両ディールの構造と、「専用シリコン vs GPU」という対立軸が 2026 年に壊れた現実を物理と経済の両面から書く。
なぜ 200 億ドルの取引が同時期に 2 件起きたのか
前提として、推論市場の規模を確認する。
AI コンピュート支出の おおよそ 2/3 が 2026 年中に推論側に寄ると複数の業界レポートで言われている (Morgan Stanley、SemiAnalysis などの推計、数値はレポート間で 60-70% の幅)。学習は事前に「重い投資をまとめてする」モデルだが、推論は モデルが使われ続ける限り続く運用コストだから、規模が積み上がりやすい。
ここに NVIDIA が困った構造がある。
NVIDIA H100 / B100 系列は 学習で支配的だが、推論専用に最適化されていない。FP16/BF16 演算と HBM 帯域を学習効率の方に振っているので、長文の出力で 1 トークンずつ生成する推論ループでは、メモリ帯域と SRAM 容量の制約に引っかかる。実測値で見ると、Llama 3 70B を H100 で動かしたとき、標準デプロイで 60-100 t/s (tokens/second)、最適化を最大限効かせて 200 t/s 程度というのが業界の共通認識だ (Groq vs H100 ベンチマーク)。
これを Groq の LPU は 同じ Llama 3 70B で 280-300 t/s で叩く。Artificial Analysis の独立ベンチで 284 t/s が公開されている (Groq 公式ブログ)。約 3 倍速い (ただし H100 側はバッチサイズや量子化、テンソル並列の構成で実測値の幅が大きいので、3 倍は条件付きの数字)。
3 倍を 2/3 の市場に当てると何が起きるか。推論で 3 倍効率なら、データセンターの電気代と土地代がだいたい 1/3 で済む。これは「NVIDIA 1 択」の前提を揺るがすには十分な数字だ。
NVIDIA 視点で見ると、こうなる。
推論専用 ASIC を社内で 0 から作るには 2-3 年かかる。その間に Groq が大手顧客を取り始めたら、推論市場の一部は NVIDIA から逃げる。だから Groq の技術を内部化する選択肢を取る。
ライセンス契約という形を取ったのは、規制リスクを避けるためだ。Motley Fool は 「アクイハイア」と表現している (Motley Fool) — 会社は残るが、CEO の Jonathan Ross と President の Sunny Madra ら主要メンバーは NVIDIA に合流する。競合は事実上消える。
CNBC の別記事では、この取引が「競争のフィクションを維持する構造」と分析されている (CNBC)。FTC を意識した形式だ。
OpenAI が Cerebras を選んだ理由は「速さ」だけではない
Groq が NVIDIA 側に行ったタイミングで、OpenAI が動いた。Cerebras と 200 億ドルの MRA を結び、750 MW 分の推論キャパシティを確保した (Cerebras 公式パートナーシップ)。
数字の意味を整理する。750 MW は中規模の発電所 1 基分。Cerebras CS-3 1 台が約 23 kW 消費すると公開されているので、おおよそ 32,000 台規模のシステムが想定されている。これを 2030 年までに 2 GW (約 87,000 台) まで広げる契約だ。
OpenAI が NVIDIA から完全に離れたわけではない。NVIDIA も別途 OpenAI に 200 億ドル投資している。だが、推論専用の大量キャパは Cerebras 側に集める意思決定があった。
この理由は単に「Cerebras が速い」では説明できない。Cerebras WSE-3 は オンチップ SRAM 44 GB / 21 PB/s のメモリ帯域を持ち、これは H100 の HBM3 (3.35 TB/s) の 約 6,300 倍 (Cerebras 公式チップ仕様)。それは事実なのだが、44 GB という容量は 70B 以上のモデルでは外部メモリへの分割が必須になる。完全な勝ち筋ではない。
実際に OpenAI が見ていた構造は、AWS Bedrock 側の組み合わせから読める。Cerebras の S-1 (IPO 申請書) には AWS Trainium で prefill、Cerebras CS-3 で decode という disaggregated アーキテクチャが書かれている (Futurum 解説)。
prefill (プロンプトを並列で処理する段階) は計算密度が高いので Trainium のような行列演算向きチップが効率的で、decode (トークンを 1 個ずつ生成する段階) は メモリ帯域が支配するので Cerebras の SRAM-only 構造が効く。AWS Elastic Fabric Adapter で 2 段をつなぐと、内部テストでは GPU クラスタ比で桁違いに速い推論を達成したと報告されている (MLQ.ai)。具体的な ms 単位の数字は AWS/Cerebras から正式に公開されていないので、公表ベンチの幅で読む方が安全だ。
つまり OpenAI は「Cerebras 単独で全部やる」のではなく、ワークロードを分割して最適チップに当てる disaggregated 戦略を選んだ。これは AI 推論アーキテクチャが「GPU で全部」から「役割別チップの組み合わせ」へ移る分水嶺だ。
NVIDIA の CUDA エコシステムが残った理由
両ディール後の市場で NVIDIA がどれだけ残るかを冷静に見ると、70-80% は依然 NVIDIAと業界アナリスト各社が見ている。CUDA は約 20 年積み上げてきたツールチェーン資産で、乗り換えコストはエンジニア工数で数年単位だ。
これは具体的にこう効く。
- 学習側で PyTorch / JAX / TensorRT のチューニングが効くのは CUDA だけ
- 推論最適化の vLLM、TensorRT-LLM などのライブラリも CUDA 前提
- カスタムカーネル (FlashAttention など) は CUDA 上で先に最適化される
- データセンターのファシリティ運用 (冷却、電源、配線) も NVIDIA GPU 想定で設計されてきた
新規データセンターを Cerebras 専用に作るのは可能だが、既存の H100 / B100 が並んでいる施設に Cerebras を後付けで足すのは設計上ほぼ無理だ。OpenAI が Cerebras 用に 1 GW 級の新規キャパを確保しているのも、そういう物理的な制約から来ている。
私の周りでも、ローカルで Qwen2.5-14B を 8 GB VRAM に詰めて動かすときに「CUDA でしか llama.cpp の GPU offload が安定しない」と痛感する場面が何度もあった。個人スケールでも CUDA エコの厚みは効く。データセンタースケールでは桁違いに効く。
だから両ディールが起きた後でも、学習側の支配権は NVIDIA に残る。動いたのは 推論側の数十パーセントだ。
残ったプレイヤー
Groq が NVIDIA 側に行き、Cerebras が OpenAI と AWS 側に固まると、独立系の推論専用チップは数を減らした。残っているのは、ざっくりこのあたり。
- SambaNova Systems: Dataflow アーキテクチャの SN40L、企業向け推論。Cerebras と似た wafer-scale ではないが SRAM 重視
- Tenstorrent (Jim Keller): RISC-V ベースの Wormhole / Blackhole、オープン路線
- Etched: Transformer 専用 ASIC「Sohu」、極端な専門化
- Rain AI、Lightmatter、Mythic: アナログ / 光コンピューティング、商用化はまだ
- AMD MI350 系: GPU 路線で NVIDIA に対抗、CUDA 互換ではないが ROCm を磨く
このうち SambaNova と Tenstorrent は資金調達が続いているが、市場シェアは小さい。Etched は Transformer 以外を捨てる極端な賭けで、Llama 3 70B を 1 サーバで 50 万 t/s と公称しているが、量産時期の確証はまだ薄い。
NVIDIA が Groq を吸収したことの含意は、**「専用 ASIC で NVIDIA に挑む路線は資金調達がさらに難しくなる」**ということだ。ベンチャー投資家から見ると「Groq でさえ売られた、自分の投資先は同じ末路か?」という思考になる。実際 Fortune の記事は、NVIDIA-Groq 後の AI チップスタートアップを 「sitting pretty (有利な側)」と「disrupt 目指して残る側」 に分けて分析している (Fortune)。
8 GB VRAM 視点で見ると何が変わるか
私のように 8 GB VRAM で Local LLM を回す側からすると、両ディールは 直接の影響はほぼない。Cerebras CS-3 も Groq LPU も個人用途では使えない (各々 $数百万のサーバ単位)。
だが、「推論アーキの多様化」を理解しておく価値はある。
理由は 2 つある。
-
Local LLM 推論で「GPU だけ」の世界観だと、新しい最適化アイデアを取りこぼす。Groq の deterministic execution、Cerebras の SRAM-first design、AWS の disaggregated 構成は、ローカル側にも応用できるアイデアを含む。
- 例: vLLM の paged attention、Flash Attention の SRAM 活用、KV cache の分散など、すでに「メモリ帯域中心の最適化」が主流に来ている。これは Groq/Cerebras の発想と地続きだ。
-
NVIDIA の API 価格戦略が変わる可能性。データセンター推論で Cerebras が一定シェアを取ると、NVIDIA は inference 専用 ASIC で価格を下げる動機を持つ。これは Local LLM の代替手段である Cloud API の値段に効く。「ローカルで動かす方が結局安い」という前提が、2026 年後半-2027 年に変わるかもしれない。
Local LLM コミュニティで「context 長を伸ばしても精度は上がらない」「KV cache を SRAM に近づける方が効く」といった議論が増えているのは、独立に業界の物理的限界に当たっているからだ。データセンター側の Groq/Cerebras の進化と、ローカル側の最適化は 同じ物理に違うスケールで挑んでいる。
ハイパースケーラの自家製チップはどこに行ったか
NVIDIA-Groq、OpenAI-Cerebras の話と並行して、Google TPU v7、AWS Trainium2、Microsoft Maia、Meta MTIA も動いている。これは 以前の記事で扱った「ハイパースケーラ自家製チップ」の世界線だ。
両ディールが起きた後の構造はこうなる。
| プレイヤー | 学習 | 推論 |
|---|---|---|
| OpenAI | NVIDIA GPU | Cerebras + NVIDIA + Trainium (disaggregated) |
| TPU + GPU | TPU | |
| AWS | Trainium + GPU | Trainium + Cerebras (Bedrock) |
| Microsoft | NVIDIA GPU + Maia | Maia + GPU |
| Meta | NVIDIA GPU + MTIA | MTIA + GPU |
OpenAI と AWS が Cerebras を入れた以外、ハイパースケーラ各社は 自家製チップで内製化を進める方向にある。NVIDIA への依存度を下げたいのは共通だが、自分で持つチップは「学習にも推論にも一定使える汎用寄り」の設計が多い。
Cerebras のような 極端な専門化 (wafer-scale で SRAM-first) は、社内チームでは作りにくい。だから OpenAI / AWS は買うのではなく契約で取る選択をした。これも 200 億ドルディールの背景にある。
「Cerebras と Groq は NVIDIA を殺せなかった」では足りない
この記事を書き始める前、私は「Cerebras と Groq は NVIDIA を殺せなかった」というテーゼで構成を組んでいた。書きながら気づいたのは、両者とも『殺す』には行かなかったということだ。Groq は売られ、Cerebras は OpenAI に組み込まれた。NVIDIA を倒すゲームではなくなった。
代わりに起きたのは、AI 推論市場が「GPU 1 択」から「役割別チップの組み合わせ」へ静かに移ったということだ。物理 (SRAM 容量、メモリ帯域、wafer 歩留まり) とエコシステム (CUDA、ツールチェーン、データセンター設計) の押し引きの結果として、両ディールが同時に起きた。
私はファブ周辺の仕事を続けながら、この変化を「半導体の歴史で似た瞬間」と比べて考えている。2010 年代の Intel x86 支配がスマートフォン用 ARM に削られた時の、最初の 5 年間に近い。完全な交代は起きないが、最も儲かる市場の一部が確実に動く。
2027 年以降、推論専用シリコンがデータセンターのどれくらいを占めるかは、Cerebras の量産能力と AWS / OpenAI 以外の顧客を取れるかで決まる。ベットの場所が見えた、というのが 2026 年の到達点だ。