0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

NVIDIAがGroqを買い、OpenAIはCerebrasを選んだ — 2026年の半年で『推論はGPU1択』が壊れた話

0
Posted at

2025 年 12 月から 2026 年初頭にかけて、奇妙なほど一致した 200 億ドルの取引が 2 件起きた。NVIDIA が Groq を取得し、OpenAI が Cerebras と契約した。別々のディールに見えるが、両方とも AI 推論市場の同じ地殻変動を映している。

2025 年 12 月、NVIDIA は Groq の資産を約 200 億ドルで取得すると発表した (CNBC)。Mellanox の 70 億ドルを超え、NVIDIA 史上最大の取引になった。

ほぼ同時期、OpenAI は Cerebras と 200 億ドル超の Master Relationship Agreement を締結した (2025 年末締結、2026 年公表)。750 メガワット分の推論キャパシティ、2030 年までに 2 ギガワットまで拡張可能 (Cerebras IPO 報道)。OpenAI は Cerebras 株の最大 10% をワラントで取得する権利も含まれている。AWS Bedrock との Cerebras 統合は 2026 年 3 月に別途発表された。私は半導体ファブ周辺の仕事をしていたので、似た「市場が静かに転換する瞬間」を 2018-2020 年の 7nm 競争で見た覚えがある。今回はもっと早い。

この記事では、両ディールの構造と、「専用シリコン vs GPU」という対立軸が 2026 年に壊れた現実を物理と経済の両面から書く。

なぜ 200 億ドルの取引が同時期に 2 件起きたのか

前提として、推論市場の規模を確認する。

AI コンピュート支出の おおよそ 2/3 が 2026 年中に推論側に寄ると複数の業界レポートで言われている (Morgan Stanley、SemiAnalysis などの推計、数値はレポート間で 60-70% の幅)。学習は事前に「重い投資をまとめてする」モデルだが、推論は モデルが使われ続ける限り続く運用コストだから、規模が積み上がりやすい。

ここに NVIDIA が困った構造がある。

NVIDIA H100 / B100 系列は 学習で支配的だが、推論専用に最適化されていない。FP16/BF16 演算と HBM 帯域を学習効率の方に振っているので、長文の出力で 1 トークンずつ生成する推論ループでは、メモリ帯域と SRAM 容量の制約に引っかかる。実測値で見ると、Llama 3 70B を H100 で動かしたとき、標準デプロイで 60-100 t/s (tokens/second)、最適化を最大限効かせて 200 t/s 程度というのが業界の共通認識だ (Groq vs H100 ベンチマーク)。

これを Groq の LPU は 同じ Llama 3 70B で 280-300 t/s で叩く。Artificial Analysis の独立ベンチで 284 t/s が公開されている (Groq 公式ブログ)。約 3 倍速い (ただし H100 側はバッチサイズや量子化、テンソル並列の構成で実測値の幅が大きいので、3 倍は条件付きの数字)。

3 倍を 2/3 の市場に当てると何が起きるか。推論で 3 倍効率なら、データセンターの電気代と土地代がだいたい 1/3 で済む。これは「NVIDIA 1 択」の前提を揺るがすには十分な数字だ。

NVIDIA 視点で見ると、こうなる。

推論専用 ASIC を社内で 0 から作るには 2-3 年かかる。その間に Groq が大手顧客を取り始めたら、推論市場の一部は NVIDIA から逃げる。だから Groq の技術を内部化する選択肢を取る

ライセンス契約という形を取ったのは、規制リスクを避けるためだ。Motley Fool は 「アクイハイア」と表現している (Motley Fool) — 会社は残るが、CEO の Jonathan Ross と President の Sunny Madra ら主要メンバーは NVIDIA に合流する。競合は事実上消える

CNBC の別記事では、この取引が「競争のフィクションを維持する構造」と分析されている (CNBC)。FTC を意識した形式だ。

OpenAI が Cerebras を選んだ理由は「速さ」だけではない

Groq が NVIDIA 側に行ったタイミングで、OpenAI が動いた。Cerebras と 200 億ドルの MRA を結び、750 MW 分の推論キャパシティを確保した (Cerebras 公式パートナーシップ)。

数字の意味を整理する。750 MW は中規模の発電所 1 基分。Cerebras CS-3 1 台が約 23 kW 消費すると公開されているので、おおよそ 32,000 台規模のシステムが想定されている。これを 2030 年までに 2 GW (約 87,000 台) まで広げる契約だ。

OpenAI が NVIDIA から完全に離れたわけではない。NVIDIA も別途 OpenAI に 200 億ドル投資している。だが、推論専用の大量キャパは Cerebras 側に集める意思決定があった。

この理由は単に「Cerebras が速い」では説明できない。Cerebras WSE-3 は オンチップ SRAM 44 GB / 21 PB/s のメモリ帯域を持ち、これは H100 の HBM3 (3.35 TB/s) の 約 6,300 倍 (Cerebras 公式チップ仕様)。それは事実なのだが、44 GB という容量は 70B 以上のモデルでは外部メモリへの分割が必須になる。完全な勝ち筋ではない。

実際に OpenAI が見ていた構造は、AWS Bedrock 側の組み合わせから読める。Cerebras の S-1 (IPO 申請書) には AWS Trainium で prefill、Cerebras CS-3 で decode という disaggregated アーキテクチャが書かれている (Futurum 解説)。

prefill (プロンプトを並列で処理する段階) は計算密度が高いので Trainium のような行列演算向きチップが効率的で、decode (トークンを 1 個ずつ生成する段階) は メモリ帯域が支配するので Cerebras の SRAM-only 構造が効く。AWS Elastic Fabric Adapter で 2 段をつなぐと、内部テストでは GPU クラスタ比で桁違いに速い推論を達成したと報告されている (MLQ.ai)。具体的な ms 単位の数字は AWS/Cerebras から正式に公開されていないので、公表ベンチの幅で読む方が安全だ。

つまり OpenAI は「Cerebras 単独で全部やる」のではなく、ワークロードを分割して最適チップに当てる disaggregated 戦略を選んだ。これは AI 推論アーキテクチャが「GPU で全部」から「役割別チップの組み合わせ」へ移る分水嶺だ。

NVIDIA の CUDA エコシステムが残った理由

両ディール後の市場で NVIDIA がどれだけ残るかを冷静に見ると、70-80% は依然 NVIDIAと業界アナリスト各社が見ている。CUDA は約 20 年積み上げてきたツールチェーン資産で、乗り換えコストはエンジニア工数で数年単位だ。

これは具体的にこう効く。

  • 学習側で PyTorch / JAX / TensorRT のチューニングが効くのは CUDA だけ
  • 推論最適化の vLLM、TensorRT-LLM などのライブラリも CUDA 前提
  • カスタムカーネル (FlashAttention など) は CUDA 上で先に最適化される
  • データセンターのファシリティ運用 (冷却、電源、配線) も NVIDIA GPU 想定で設計されてきた

新規データセンターを Cerebras 専用に作るのは可能だが、既存の H100 / B100 が並んでいる施設に Cerebras を後付けで足すのは設計上ほぼ無理だ。OpenAI が Cerebras 用に 1 GW 級の新規キャパを確保しているのも、そういう物理的な制約から来ている。

私の周りでも、ローカルで Qwen2.5-14B を 8 GB VRAM に詰めて動かすときに「CUDA でしか llama.cpp の GPU offload が安定しない」と痛感する場面が何度もあった。個人スケールでも CUDA エコの厚みは効く。データセンタースケールでは桁違いに効く。

だから両ディールが起きた後でも、学習側の支配権は NVIDIA に残る。動いたのは 推論側の数十パーセントだ。

残ったプレイヤー

Groq が NVIDIA 側に行き、Cerebras が OpenAI と AWS 側に固まると、独立系の推論専用チップは数を減らした。残っているのは、ざっくりこのあたり。

  • SambaNova Systems: Dataflow アーキテクチャの SN40L、企業向け推論。Cerebras と似た wafer-scale ではないが SRAM 重視
  • Tenstorrent (Jim Keller): RISC-V ベースの Wormhole / Blackhole、オープン路線
  • Etched: Transformer 専用 ASIC「Sohu」、極端な専門化
  • Rain AI、Lightmatter、Mythic: アナログ / 光コンピューティング、商用化はまだ
  • AMD MI350 系: GPU 路線で NVIDIA に対抗、CUDA 互換ではないが ROCm を磨く

このうち SambaNova と Tenstorrent は資金調達が続いているが、市場シェアは小さい。Etched は Transformer 以外を捨てる極端な賭けで、Llama 3 70B を 1 サーバで 50 万 t/s と公称しているが、量産時期の確証はまだ薄い。

NVIDIA が Groq を吸収したことの含意は、**「専用 ASIC で NVIDIA に挑む路線は資金調達がさらに難しくなる」**ということだ。ベンチャー投資家から見ると「Groq でさえ売られた、自分の投資先は同じ末路か?」という思考になる。実際 Fortune の記事は、NVIDIA-Groq 後の AI チップスタートアップを 「sitting pretty (有利な側)」と「disrupt 目指して残る側」 に分けて分析している (Fortune)。

8 GB VRAM 視点で見ると何が変わるか

私のように 8 GB VRAM で Local LLM を回す側からすると、両ディールは 直接の影響はほぼない。Cerebras CS-3 も Groq LPU も個人用途では使えない (各々 $数百万のサーバ単位)。

だが、「推論アーキの多様化」を理解しておく価値はある。

理由は 2 つある。

  1. Local LLM 推論で「GPU だけ」の世界観だと、新しい最適化アイデアを取りこぼす。Groq の deterministic execution、Cerebras の SRAM-first design、AWS の disaggregated 構成は、ローカル側にも応用できるアイデアを含む。

    • 例: vLLM の paged attention、Flash Attention の SRAM 活用、KV cache の分散など、すでに「メモリ帯域中心の最適化」が主流に来ている。これは Groq/Cerebras の発想と地続きだ。
  2. NVIDIA の API 価格戦略が変わる可能性。データセンター推論で Cerebras が一定シェアを取ると、NVIDIA は inference 専用 ASIC で価格を下げる動機を持つ。これは Local LLM の代替手段である Cloud API の値段に効く。「ローカルで動かす方が結局安い」という前提が、2026 年後半-2027 年に変わるかもしれない。

Local LLM コミュニティで「context 長を伸ばしても精度は上がらない」「KV cache を SRAM に近づける方が効く」といった議論が増えているのは、独立に業界の物理的限界に当たっているからだ。データセンター側の Groq/Cerebras の進化と、ローカル側の最適化は 同じ物理に違うスケールで挑んでいる

ハイパースケーラの自家製チップはどこに行ったか

NVIDIA-Groq、OpenAI-Cerebras の話と並行して、Google TPU v7、AWS Trainium2、Microsoft Maia、Meta MTIA も動いている。これは 以前の記事で扱った「ハイパースケーラ自家製チップ」の世界線だ。

両ディールが起きた後の構造はこうなる。

プレイヤー 学習 推論
OpenAI NVIDIA GPU Cerebras + NVIDIA + Trainium (disaggregated)
Google TPU + GPU TPU
AWS Trainium + GPU Trainium + Cerebras (Bedrock)
Microsoft NVIDIA GPU + Maia Maia + GPU
Meta NVIDIA GPU + MTIA MTIA + GPU

OpenAI と AWS が Cerebras を入れた以外、ハイパースケーラ各社は 自家製チップで内製化を進める方向にある。NVIDIA への依存度を下げたいのは共通だが、自分で持つチップは「学習にも推論にも一定使える汎用寄り」の設計が多い。

Cerebras のような 極端な専門化 (wafer-scale で SRAM-first) は、社内チームでは作りにくい。だから OpenAI / AWS は買うのではなく契約で取る選択をした。これも 200 億ドルディールの背景にある。

「Cerebras と Groq は NVIDIA を殺せなかった」では足りない

この記事を書き始める前、私は「Cerebras と Groq は NVIDIA を殺せなかった」というテーゼで構成を組んでいた。書きながら気づいたのは、両者とも『殺す』には行かなかったということだ。Groq は売られ、Cerebras は OpenAI に組み込まれた。NVIDIA を倒すゲームではなくなった。

代わりに起きたのは、AI 推論市場が「GPU 1 択」から「役割別チップの組み合わせ」へ静かに移ったということだ。物理 (SRAM 容量、メモリ帯域、wafer 歩留まり) とエコシステム (CUDA、ツールチェーン、データセンター設計) の押し引きの結果として、両ディールが同時に起きた。

私はファブ周辺の仕事を続けながら、この変化を「半導体の歴史で似た瞬間」と比べて考えている。2010 年代の Intel x86 支配がスマートフォン用 ARM に削られた時の、最初の 5 年間に近い。完全な交代は起きないが、最も儲かる市場の一部が確実に動く

2027 年以降、推論専用シリコンがデータセンターのどれくらいを占めるかは、Cerebras の量産能力と AWS / OpenAI 以外の顧客を取れるかで決まる。ベットの場所が見えた、というのが 2026 年の到達点だ。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?