NVIDIA GTC 2026総まとめ — Vera Rubin・Groq 3 LPU・推論コスト10x削減の全貌

Last updated at 2026-03-17Posted at 2026-03-17

はじめに

2026年3月16日、NVIDIAはサンノゼで開催中のGTC 2026カンファレンスで、Jensen Huang CEOによる2時間のキーノートを実施した。次世代AIチップ「Vera Rubin」アーキテクチャの正式発表、$20B（約3兆円）で買収したGroqの推論チップ統合、そしてグラフィックス技術 DLSS 5 など、AI基盤インフラの大型発表が相次いだ。

この記事では、GTC 2026キーノートの主要発表をエンジニア視点で整理し、AI推論コストやクラウド提供時期など、開発者が押さえるべきポイントを解説する。

この記事で学べること

Vera Rubin GPUアーキテクチャのスペックとBlackwellからの進化点
Groq 3 LPU統合がAI推論にもたらすインパクト
NVL72ラックシステムの構成と性能数値
クラウド提供スケジュールと推論コスト見通し
DLSS 5・NemoClaw・Dynamoなど周辺発表の要点

対象読者

AI/MLモデルの推論基盤を設計・運用するエンジニア
クラウドGPUインスタンスのコスト最適化に関心がある方
NVIDIA GPUロードマップを追っている方

TL;DR

Vera Rubin GPU: 336Bトランジスタ、TSMC 3nm、HBM4 288GB/GPU。Blackwell比で推論5x高速・トークンコスト最大10x削減
Groq 3 LPU: SRAM 500MB/チップ、150TB/sの内部帯域幅。256基搭載のLPXラックで超低レイテンシ推論を実現
NVL72: 72 Rubin GPU + 36 Vera CPU、3.6 EFLOPS FP4推論、260 TB/s NVLink 6
クラウド提供: AWS・Google Cloud・Microsoft Azure・OCIで2026年後半に提供開始
DLSS 5: 3D-guided Neural Renderingによる生成AIベースのグラフィックス革新、2026年秋リリース

Vera Rubin GPUアーキテクチャ

チップスペック

GTC 2026の中心は、Blackwell世代の後継となるRubinアーキテクチャだ。NVIDIAの公式発表に基づく主要スペックを以下に示す。

項目	Rubin GPU	Blackwell GPU（参考）
トランジスタ数	336B（2ダイ構成）	208B
プロセス	TSMC 3nm	TSMC 4nm
メモリ	HBM4 288GB	HBM3e 192GB
メモリ帯域幅	約22 TB/s	約8 TB/s
NVFP4推論性能	50 PFLOPS	10 PFLOPS
NVFP4訓練性能	35 PFLOPS	10 PFLOPS

NVIDIAの公式スライドでは、Blackwell比で推論5x・訓練3.5xの性能向上と位置付けられている。メモリ帯域幅は約3倍に拡大しており、大規模言語モデル（LLM）のKVキャッシュ処理やMixture-of-Experts（MoE）モデルの推論で特に効果が大きい。

HBM4メモリの進化

Rubinが採用するHBM4は、HBM3e比でインターフェース幅が2倍になった。GPU1基あたり288GBのメモリ容量は、1Tパラメータ級のMoEモデルをより少ないGPU数で推論できることを意味する。NVIDIAの発表によれば、同等のMoEモデル訓練に必要なGPU数がBlackwell比で4分の1に削減される。

Vera CPU

Vera Rubinプラットフォームにはカスタム設計のArm CPUも含まれる。

項目	Vera CPU
トランジスタ数	227B
コア構成	88コア / 176スレッド（Spatial Multi-Threading）
メモリ	最大1.5TB LPDDR5x（SOCAMM）
メモリ帯域幅	最大1.2 TB/s

GPU前段のデータ前処理やオーケストレーション処理をCPU側でオフロードし、GPU稼働率を最大化する設計だ。

NVL72ラックシステム

ラック全体スペック

Vera Rubinの導入単位となるNVL72は、72基のRubin GPUと36基のVera CPUを液冷ラック1台に収めた構成だ。

項目	NVL72
GPU数	72基（Rubin GPU）
CPU数	36基（Vera CPU）
FP4推論性能	3.6 EFLOPS
FP4訓練性能	2.5 EFLOPS
HBM4容量	20.7 TB
LPDDR5x容量	54 TB
HBM帯域幅	1.6 PB/s
NVLink 6帯域幅	260 TB/s（スケールアップ）

NVLink 6はGPU間で双方向3.6 TB/sの帯域を提供する。ラック全体のスケールアップ帯域260 TB/sは、NVIDIAの発表によると「グローバルインターネットの総帯域の2倍以上」に相当する。

推論コスト削減の根拠

NVIDIAが公式に掲げる「トークンコスト10x削減」は、Kimi-K2-Thinkingモデルの特定シーケンス長における測定値に基づく。すべてのワークロードで一律10xの削減が実現するわけではない点に留意が必要だ。ただし、MoEモデルの推論において、HBM4の広帯域とNVLink 6のスケールアップ性能が組み合わさることで、大幅なコスト改善が見込まれる。

Groq 3 LPU — SRAM推論チップの統合

買収の経緯

NVIDIAは2025年12月に約$20B（約3兆円）でGroqの技術資産を取得した。Google TPUの設計者であるJonathan Ross氏（Groq創業者）やSunny Madra氏（社長）を含む主要人材も移籍している。

LPUアーキテクチャの特徴

Groq 3 LPUはGPUとは根本的に異なるアプローチで推論を高速化する。

項目	Groq 3 LPU	GPU（参考）
主記憶	SRAM 500MB（オンチップ）	HBM（オフチップ）
内部帯域幅	約150 TB/s	約22 TB/s（Rubin HBM4）
レイテンシ特性	確定的（deterministic）	変動あり
最適ワークロード	推論（特にリアルタイム）	訓練 + 推論

LPUの核心は「オンチップSRAMによる超高帯域・低レイテンシ」だ。HBMを使わずSRAMだけでモデルの重みを保持するため、メモリアクセスの遅延が極めて小さい。NVIDIAの発表によると、Llama 2 70Bモデルで241〜750トークン/秒の推論速度を実現する。

LPXラック構成

GTC 2026では、Groq 3 LPUを256基搭載するLPXラックも発表された。LPXラック全体で128GBのオンチップSRAMと640 TB/sのスケールアップ帯域を持ち、Vera Rubinプラットフォームと組み合わせることで「訓練はGPU、推論はLPU」という明確な役割分担が可能になる。Q3 2026の出荷が予定されている。

クラウド提供スケジュールと開発者への影響

提供タイムライン

NVIDIAの公式発表に基づく提供スケジュールは以下のとおりだ。

時期	マイルストーン
2026年 Q1	Vera Rubin量産開始（NVIDIAの発表による）
2026年 H2	AWS・Google Cloud・Microsoft Azure・OCIでの初期展開
2026年 Q4〜2027年 Q1	クラウドでの一般提供（GA）
2027年	Vera Rubin Ultra（次世代ラック）出荷

クラウドパートナー

NVIDIAが発表した初期展開パートナーは以下のとおりだ。

ハイパースケーラー: AWS、Google Cloud、Microsoft Azure、Oracle Cloud Infrastructure

NVIDIAクラウドパートナー: CoreWeave、Lambda、Nebius、Nscale

AWSとの提携では、LPUを含む100万基以上のNVIDIA GPUがAWSのグローバルリージョンに展開される計画が発表された。Microsoftは、Azureが最初にVera Rubin NVL72を稼働させたハイパースケールクラウドであると発表している。

推論コスト見通し

NVL72ラックの推定コストは$350万〜$400万とされている。GPU時間あたりのオンデマンド価格は公式未発表だが、過去の価格推移から$6〜$10+/GPU時間と予測されている。ただし、開発者にとって重要な指標は「トークンあたりのコスト」であり、NVIDIAはMoEワークロードでBlackwell比最大10x削減を主張している。

これが実現すれば、現在Blackwellベースのクラウドインスタンスで$0.01/1Kトークン程度のLLM推論コストが、$0.001/1Kトークン水準まで下がる可能性がある。エージェント型AIの長時間マルチターン会話や、大量のバッチ推論タスクを抱える開発者にとって、インフラ選定の判断基準が大きく変わる。

その他の主要発表

DLSS 5

NVIDIAはDLSS 5を「レイトレーシング以来最大のグラフィックス技術革新」と位置付けた。従来のアップスケーリングに加え、「3D-guided Neural Rendering」と呼ばれる生成AIベースのレンダリング技術を統合する。手作りの3Dレンダリングと生成AIを融合し、フォトリアリズムの大幅な向上を実現するとしている。Bethesda、Capcom、Tencent、Ubisoftが対応を表明しており、2026年秋のリリースが予定されている。

NVIDIA Dynamo（推論ソフトウェア）

Triton Inference Serverの後継となるオープンソース推論ソフトウェア「NVIDIA Dynamo」も発表された。disaggregated servingにより、LLMのプリフィル（処理）フェーズと生成フェーズを異なるGPUに分離し、各フェーズを独立に最適化できる。NVIDIAの発表によれば、同じGPU数でLlamaモデルの推論性能とトークン収益を2倍にし、DeepSeek-R1モデルではGPUあたりのトークン生成を30x以上向上させる。PyTorch、SGLang、TensorRT-LLM、vLLMに対応し、完全オープンソースで公開されている。

NVIDIA Dynamoについては、記事078「NVIDIA Dynamo入門」で詳しく解説している。

NemoClaw（エージェントプラットフォーム）

NemoClaw は、企業向けAIエージェントの構築・デプロイ・管理を行うオープンソースプラットフォームだ。ポリシー適用、ネットワークガードレール、プライバシールーティングを統合したOpenShellランタイムを含み、DGX SparkやDGX Stationと組み合わせてローカル環境でのエージェント開発が可能になる。

NemoClawについては、記事075「NVIDIA NemoClaw入門」で詳しく解説している。

$1T購買発注見通し

Jensen Huang CEOは、BlackwellとVera Rubinの合計購買発注が2027年までに$1T（約150兆円）に達する見通しを示した。2025年のGTCで示した$500Bの収益機会予測から2倍に引き上げた形だ。

Blackwellからの移行判断

移行を検討すべきケース

大規模MoEモデルの推論: HBM4の3倍の帯域幅とNVLink 6により、MoEのエキスパート切り替えが高速化
リアルタイム推論が必要なサービス: Groq 3 LPU（LPXラック）による確定的低レイテンシ
推論コストがボトルネック: トークンあたりコスト10x削減（MoEワークロード）

現行Blackwellで継続すべきケース

2026年後半までに本番投入が必要: Vera Rubinのクラウド一般提供は2026年Q4以降
訓練ワークロードが中心: 訓練性能の向上幅は3.5x。推論ほどの劇的改善ではない
既存のBlackwellインスタンス契約がある: リザーブドインスタンスの契約期間を考慮

まとめ

GTC 2026の発表は、NVIDIAが「推論の時代」に本格シフトしたことを示している。Vera Rubin GPUによるハードウェア性能の飛躍、Groq 3 LPUによるSRAMベース推論の統合、そしてDynamoによるソフトウェア最適化が三位一体で推論コスト削減を推進する構図だ。

開発者が今取るべきアクションは以下のとおりだ。

2026年後半のクラウド提供開始に向けて、自社の推論ワークロード（モデルサイズ、トークン量、レイテンシ要件）を棚卸しする
MoEモデルを使用している場合、Vera Rubinのコスト削減効果を見積もる
リアルタイム推論が要件にある場合、Groq 3 LPU（LPXラック）の適用可能性を評価する
NVIDIA Dynamoへの移行を検討し、disaggregated servingによる既存GPU活用も視野に入れる

参考リンク

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up