GTC 2026で遂にRubinの詳細が発表されたので、その技術仕様・スペックをまとめた。
特に深層学習の計算能力周りについては、どこのソースを見ても基準を揃えつつ網羅的になっている情報が無かったので、独自に情報をまとめている。
(システムレベル・LPU等を含めると情報量が多すぎるので、GPUに特化してる)
1. 基本仕様とダイ構成
|
R200 (Rubin) |
B200 (Blackwell) |
H100 SXM (Hopper) |
| プロセス |
TSMC N3P (3nm) |
TSMC N4P (4nm+) |
TSMC 4N (4nm) |
| トランジスタ数 |
3360億 |
2080億 |
800億 |
| ダイ構成 |
Computeダイ×2 + I/Oダイ×2 |
ダイ×2 (MCM) |
ダイ×1 |
| TDP |
1800~2300W |
1000W |
700W |
| SM数 |
224 |
148 |
132 |
| CUDAコア数 |
28,672 |
18,944 |
16,896 |
| Tensorコア数 |
896 |
592 |
528 |
| SFU数 |
3,584 |
2,368 |
2,112 |
|
Boost Clock (CUDA/Tensor) |
2 GHz 強? |
1.98 / 1.86 GHz |
1.98 / 1.83 GHz |
- 遂に3nmプロセス採用
-
I/Oダイの分離
- CPU・GPU間通信のSerDes等のI/O処理モジュールの面積消費が推定20%強あり(Rubinのダイ写真から算定)、その分をSMに割り振ることで計算性能UP⤴
- コンピュートダイは最先端プロセス、I/Oダイは高歩留まりプロセスを採用することで、製造コスパUP⤴
- TDP:負荷に応じてプロファイル設定で動的に設定できる。データセンター的に嬉しい
- CUDAコア・Tensorコア・SFU・Clockが計算能力に直結する(詳細スペックは後述)
- ⬇の写真がR200パッケージであり、中央にComputeダイ2個、左右にI/Oダイ2個、上下にHBM8個の構成を取る
2. メモリ周り
|
R200 |
B200 |
H100 SXM |
| メモリ規格 |
HBM4 |
HBM3e |
HBM3 |
| メモリ容量 |
288 GB |
192 GB |
80 GB |
| メモリ帯域 |
22 TB/s |
7.7 TB/s |
3.35 TB/s |
| インターフェース幅 |
2048 bit / stack |
1024 bit / stack |
1024 bit / stack |
| 総バス幅 |
16,384 bit |
8,192 bit |
5,120 bit |
-
HBM4を採用 → メモリ容量の1.5倍⤴に対して、メモリ帯域は2.88倍⤴も向上してる
- 2027年予定のRubin Ultraでは、Stack数が倍増してメモリ容量も大幅UP予定らしい
3. AI演算性能 (Tensor Core)
Tensorコアは行列演算を担当し、CNN、全結合層、Attention score計算などで使われる。
|
R200 |
B200 |
H100 |
|
FP4 (Adaptive compression) |
50 PFLOPS |
— |
— |
|
FP4 (Dense) |
35 PFLOPS |
9 PFLOPS |
— |
|
FP8 (Dense) |
17.5 PFLOPS |
4.5 PFLOPS |
1.98 PFLOPS |
|
BF16 (Dense) |
4 PFLOPS |
2.25 PFLOPS |
0.99 PFLOPS |
|
TF32 (Dense) |
2 PFLOPS |
1.13 PFLOPS |
0.50 PFLOPS |
※ (Dense) 2:4 sparsity機能OFF(Transformer Engine参照)
※ (Adaptive compression) 0値計算をスキップする新機能(Transformer Engine参照)
-
演算性能が1.8/3.9倍⤴(B200比)
-
FP4/6/8のテンソルコア幅が2倍 → BF16/TF32と比べて、FP4/6/8の伸び率は2倍
-
コア数・クロックが増加 → どの精度でも満遍なく性能が1.8倍*ぐらい
-
Adaptive compression:0値をスキップすることで性能UP⤴(タスク依存)
- ちなみに、電力効率はシステムレベル(Rubin NVL72)では10倍⤴(Blackwell NVL72比)
4. HPC演算性能 (CUDA Core)
深層学習において、CUDAコアはReduction・Element-wise処理・データ前/後処理などを担当し、LayerNormや活性化関数などで使われる。
(1 CUDAコア = 1 FMA / cycle = 2 FP32 FLOPS / cycle)
|
R200 |
B200 |
H100 |
| FP32 |
130 TFLOPS |
75.0 TFLOPS |
66.9 TFLOPS |
| FP64 |
33 TFLOPS |
37.5 TFLOPS |
33.5 TFLOPS |
-
FP32:コア数増加・クロック増加で性能1.7倍⤴(B200比)
-
FP64:コア数増加・クロック増加・面積削減で性能0.9倍にDOWN⤵(B200比)
- FP4/6/8のテンソル幅2倍化のハードウェアリソースを確保するために、FP64はパイプライン削減に遭った
- Emulated DGEMM(低精度TensorコアでFP64のGEMM演算)でFP64演算を代替するアプローチを薦めてる(200 TFLOPS)
- このやり方では、reductionやvector演算は代替できない
5. SFU (Special Function Unit)
SFUは超越関数($\sin, \cos, \log_2, 2^x$, 逆数, rsqrt, ...)用で、SoftmaxやGELUなどで使われる。
|
R200 |
B200 |
H100 |
|
SFU数(再掲) |
3,584 |
2,368 |
2,112 |
| SFUスループット |
2 op/cycle |
1 op/cycle |
1 op/cycle |
|
SFUピーク (FP32 exp2) |
~16,271 Gop/s ? |
~4,689 Gop/s |
~4,182 Gop/s |
-
計算スループット倍・クロック増加・SFU数増加で性能3.5倍⤴(B200比)
- 実のところ、GB300の段階でスループット2倍SFUが実装されてる
- Attention処理ではSoftmaxのexp計算がネックになっており、SFU性能が全体性能に効く
- exp計算: CUDAコアで$y=x×\log_2(e)$の定数乗算をしてから、SFUで$2^y$する
- Attentionでは、シーケンス長$L$に対して$O(L^2)$回のexp計算が必要
6. Transformer Engine
6.1. 精度・マイクロスケーリング フォーマット
| 精度フォーマット |
R200 |
B200 |
H100 |
| FP4 (E2M1) |
✅ |
✅ |
— |
| FP6 (E2M3 / E3M2) |
✅ |
✅ |
— |
| FP8 (E4M3 / E5M2) |
✅ |
✅ |
✅ |
| マイクロスケーリングフォーマット |
R200 (第3世代) |
B200 (第2世代) |
H100 (第1世代) |
| NVFP4 |
✅ |
✅ |
— |
| MXFP4/6/8 |
✅ |
✅ |
— |
- Blackwell (B200) から変更無し
-
NVFP4:数値精度低下による計算劣化(情報損失)をスケーリングで抑制する手法
- 2段階スケーリングで効率よくスケーリングする
- ブロックスケーリング:ブロック毎(16要素)に、absolute max値(FP8=E4M3)でスケール調整(実行時に都度計算)
- MXFP4でのFP8=E8M0からダイナミックレンジが減少してるが、そこは以下のテンソルスケーリングを導入してカバーされる
- テンソルスケーリング:テンソル全体を、absolute max値(FP32)でスケール調整(実行時に都度計算。ただし、推論時重みだけは事前計算)
- メモリや計算のオーバーヘッドが生じるものの、数値精度低下による性能悪化を大きく抑えられる
- 実の所これだけでは不十分で、 確率的丸め・末尾ブロック高精度化・等々も必要
6.2. Sparse機能
|
R200 (第3世代) |
B200 (第2世代) |
H100 (第1世代) |
| Adaptive Compression |
✅ |
— |
— |
| 2:4 Sparsity |
✅ |
✅ |
✅ |
-
Adaptive Compression:0値の処理をスキップして計算効率を向上させる手法
- 全自動で簡単に適用できる(学習・コンパイル時とかの手間不要)
- NVFP4の推論時のみ使用され、1.4倍の性能向上⤴
- FP4は16段階なのでexact 0になりやすい
- モデル内部のデータ分布は一般に0中心になりやすい
- 詳細な情報はまだ出てない(今後の Developerブログ or 論文 待ち)
-
2:4 Sparsity:グループ毎(4要素)に、2個を0と見做してスキップして計算効率を向上させる手法
- NVIDIAがずっとプッシュしてたけど、遂に見放された‥
- 精度劣化とかであまり使われなかった
- 例: 4要素中の4個全部が非ゼロのとき、どれか2個をゼロ化してしまう
- 例: 4要素中の1個がゼロのとき、無為にゼロが1個残ってしまう
感想
- 順当に性能UPしてる
- 新技術・アーキテクチャは少なめ(LPUは別枠)
- NVFP4のように、この後で新技術が後から発表される可能あり