NVIDIA R200 (Rubin) の解説：B200・H100と詳細比較

Last updated at 2026-04-04Posted at 2026-03-22

GTC 2026で遂にRubinの詳細が発表されたので、その技術仕様・スペックをまとめた。
特に深層学習の計算能力周りについては、どこのソースを見ても基準を揃えつつ網羅的になっている情報が無かったので、独自に情報をまとめている。
（システムレベル・LPU等を含めると情報量が多すぎるので、GPUに特化してる）

1. 基本仕様とダイ構成

	R200 (Rubin)	B200 (Blackwell)	H100 SXM (Hopper)
プロセス	TSMC N3P (3nm)	TSMC N4P (4nm+)	TSMC 4N (4nm)
トランジスタ数	3360億	2080億	800億
ダイ構成	Computeダイ×2 ＋ I/Oダイ×2	ダイ×2 (MCM)	ダイ×1
TDP	1800～2300W	1000W	700W
SM数	224	148	132
CUDAコア数	28,672	18,944	16,896
Tensorコア数	896	592	528
SFU数	3,584	2,368	2,112
Boost Clock (CUDA/Tensor)	2 GHz 強？	1.98 / 1.86 GHz	1.98 / 1.83 GHz

遂に3nmプロセス採用
I/Oダイの分離
- CPU・GPU間通信のSerDes等のI/O処理モジュールの面積消費が推定20%強あり（Rubinのダイ写真から算定）、その分をSMに割り振ることで計算性能UP⤴
- コンピュートダイは最先端プロセス、I/Oダイは高歩留まりプロセスを採用することで、製造コスパUP⤴
TDP：負荷に応じてプロファイル設定で動的に設定できる。データセンター的に嬉しい
CUDAコア・Tensorコア・SFU・Clockが計算能力に直結する（詳細スペックは後述）
⬇の写真がR200パッケージであり、中央にComputeダイ2個、左右にI/Oダイ2個、上下にHBM8個の構成を取る

2. メモリ周り

	R200	B200	H100 SXM
メモリ規格	HBM4	HBM3e	HBM3
メモリ容量	288 GB	192 GB	80 GB
メモリ帯域	22 TB/s	7.7 TB/s	3.35 TB/s
インターフェース幅	2048 bit / stack	1024 bit / stack	1024 bit / stack
総バス幅	16,384 bit	8,192 bit	5,120 bit

HBM4を採用 → メモリ容量の1.5倍⤴に対して、メモリ帯域は2.88倍⤴も向上してる
- 2027年予定のRubin Ultraでは、Stack数が倍増してメモリ容量も大幅UP予定らしい

3. AI演算性能 (Tensor Core)

Tensorコアは行列演算を担当し、CNN、全結合層、Attention score計算などで使われる。

	R200	B200	H100
FP4 (Adaptive compression)	50 PFLOPS	—	—
FP4 (Dense)	35 PFLOPS	9 PFLOPS	—
FP8 (Dense)	17.5 PFLOPS	4.5 PFLOPS	1.98 PFLOPS
BF16 (Dense)	4 PFLOPS	2.25 PFLOPS	0.99 PFLOPS
TF32 (Dense)	2 PFLOPS	1.13 PFLOPS	0.50 PFLOPS

※ (Dense) 2:4 sparsity機能OFF（Transformer Engine参照）
※ (Adaptive compression) 0値計算をスキップする新機能（Transformer Engine参照）

演算性能が1.8/3.9倍⤴（B200比）
- FP4/6/8のテンソルコア幅が2倍 → BF16/TF32と比べて、FP4/6/8の伸び率は2倍
- コア数・クロックが増加 → どの精度でも満遍なく性能が1.8倍*ぐらい
Adaptive compression：0値をスキップすることで性能UP⤴（タスク依存）
ちなみに、電力効率はシステムレベル（Rubin NVL72）では10倍⤴（Blackwell NVL72比）

4. HPC演算性能 (CUDA Core)

深層学習において、CUDAコアはReduction・Element-wise処理・データ前/後処理などを担当し、LayerNormや活性化関数などで使われる。
（1 CUDAコア＝ 1 FMA / cycle ＝ 2 FP32 FLOPS / cycle）

	R200	B200	H100
FP32	130 TFLOPS	75.0 TFLOPS	66.9 TFLOPS
FP64	33 TFLOPS	37.5 TFLOPS	33.5 TFLOPS

FP32：コア数増加・クロック増加で性能1.7倍⤴（B200比）
FP64：コア数増加・クロック増加・面積削減で性能0.9倍にDOWN⤵（B200比）
- FP4/6/8のテンソル幅2倍化のハードウェアリソースを確保するために、FP64はパイプライン削減に遭った
- Emulated DGEMM（低精度TensorコアでFP64のGEMM演算）でFP64演算を代替するアプローチを薦めてる（200 TFLOPS）
  - このやり方では、reductionやvector演算は代替できない

5. SFU (Special Function Unit)

SFUは超越関数（$\sin, \cos, \log_2, 2^x$, 逆数, rsqrt, ...）用で、SoftmaxやGELUなどで使われる。

	R200	B200	H100
SFU数（再掲）	3,584	2,368	2,112
SFUスループット	2 op/cycle	1 op/cycle	1 op/cycle
SFUピーク (FP32 exp2)	~16,271 Gop/s ？	~4,689 Gop/s	~4,182 Gop/s

計算スループット倍・クロック増加・SFU数増加で性能3.5倍⤴（B200比）
- 実のところ、GB300の段階でスループット2倍SFUが実装されてる
Attention処理ではSoftmaxのexp計算がネックになっており、SFU性能が全体性能に効く
- exp計算： CUDAコアで$y=x×\log_2(e)$の定数乗算をしてから、SFUで$2^y$する
- Attentionでは、シーケンス長$L$に対して$O(L^2)$回のexp計算が必要

6. Transformer Engine

6.1. 精度・マイクロスケーリングフォーマット

精度フォーマット	R200	B200	H100
FP4 (E2M1)	✅	✅	—
FP6 (E2M3 / E3M2)	✅	✅	—
FP8 (E4M3 / E5M2)	✅	✅	✅

マイクロスケーリングフォーマット	R200 (第3世代)	B200 (第2世代)	H100 (第1世代)
NVFP4	✅	✅	—
MXFP4/6/8	✅	✅	—

Blackwell (B200) から変更無し
NVFP4：数値精度低下による計算劣化（情報損失）をスケーリングで抑制する手法
- 2段階スケーリングで効率よくスケーリングする
  - ブロックスケーリング：ブロック毎（16要素）に、absolute max値(FP8=E4M3)でスケール調整（実行時に都度計算）
    - MXFP4でのFP8=E8M0からダイナミックレンジが減少してるが、そこは以下のテンソルスケーリングを導入してカバーされる
  - テンソルスケーリング：テンソル全体を、absolute max値(FP32)でスケール調整（実行時に都度計算。ただし、推論時重みだけは事前計算）
- メモリや計算のオーバーヘッドが生じるものの、数値精度低下による性能悪化を大きく抑えられる
  - 実の所これだけでは不十分で、確率的丸め・末尾ブロック高精度化・等々も必要

6.2. Sparse機能

	R200 (第3世代)	B200 (第2世代)	H100 (第1世代)
Adaptive Compression	✅	—	—
2:4 Sparsity	✅	✅	✅

Adaptive Compression：0値の処理をスキップして計算効率を向上させる手法
- 全自動で簡単に適用できる（学習・コンパイル時とかの手間不要）
- NVFP4の推論時のみ使用され、1.4倍の性能向上⤴
  - FP4は16段階なのでexact 0になりやすい
  - モデル内部のデータ分布は一般に0中心になりやすい
- 詳細な情報はまだ出てない（今後の Developerブログ or 論文待ち）
2:4 Sparsity：グループ毎（4要素）に、2個を0と見做してスキップして計算効率を向上させる手法
- NVIDIAがずっとプッシュしてたけど、遂に見放された‥
  - 精度劣化とかであまり使われなかった
    - 例: 4要素中の4個全部が非ゼロのとき、どれか2個をゼロ化してしまう
    - 例: 4要素中の1個がゼロのとき、無為にゼロが1個残ってしまう

感想

順当に性能UPしてる
新技術・アーキテクチャは少なめ（LPUは別枠）
- NVFP4のように、この後で新技術が後から発表される可能あり

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up