1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

NVIDIA R200 (Rubin) の解説:B200・H100と詳細比較

1
Last updated at Posted at 2026-03-22

GTC 2026で遂にRubinの詳細が発表されたので、その技術仕様・スペックをまとめた。
特に深層学習の計算能力周りについては、どこのソースを見ても基準を揃えつつ網羅的になっている情報が無かったので、独自に情報をまとめている。
(システムレベル・LPU等を含めると情報量が多すぎるので、GPUに特化してる)

1. 基本仕様とダイ構成

R200 (Rubin) B200 (Blackwell) H100 SXM (Hopper)
プロセス TSMC N3P (3nm) TSMC N4P (4nm+) TSMC 4N (4nm)
トランジスタ数 3360億 2080億 800億
ダイ構成 Computeダイ×2 + I/Oダイ×2 ダイ×2 (MCM) ダイ×1
TDP 1800~2300W 1000W 700W
SM数 224 148 132
CUDAコア数 28,672 18,944 16,896
Tensorコア数 896 592 528
SFU数 3,584 2,368 2,112
Boost Clock (CUDA/Tensor) 2 GHz 強? 1.98 / 1.86 GHz 1.98 / 1.83 GHz
  • 遂に3nmプロセス採用
  • I/Oダイの分離
    • CPU・GPU間通信のSerDes等のI/O処理モジュールの面積消費が推定20%強あり(Rubinのダイ写真から算定)、その分をSMに割り振ることで計算性能UP⤴
    • コンピュートダイは最先端プロセス、I/Oダイは高歩留まりプロセスを採用することで、製造コスパUP⤴
  • TDP:負荷に応じてプロファイル設定で動的に設定できる。データセンター的に嬉しい
  • CUDAコア・Tensorコア・SFU・Clockが計算能力に直結する(詳細スペックは後述)
  • ⬇の写真がR200パッケージであり、中央にComputeダイ2個、左右にI/Oダイ2個、上下にHBM8個の構成を取る
    rubin_package.png

2. メモリ周り

R200 B200 H100 SXM
メモリ規格 HBM4 HBM3e HBM3
メモリ容量 288 GB 192 GB 80 GB
メモリ帯域 22 TB/s 7.7 TB/s 3.35 TB/s
インターフェース幅 2048 bit / stack 1024 bit / stack 1024 bit / stack
総バス幅 16,384 bit 8,192 bit 5,120 bit
  • HBM4を採用 → メモリ容量の1.5倍⤴に対して、メモリ帯域は2.88倍⤴も向上してる
    • 2027年予定のRubin Ultraでは、Stack数が倍増してメモリ容量も大幅UP予定らしい

3. AI演算性能 (Tensor Core)

Tensorコアは行列演算を担当し、CNN、全結合層、Attention score計算などで使われる。

R200 B200 H100
FP4 (Adaptive compression) 50 PFLOPS
FP4 (Dense) 35 PFLOPS 9 PFLOPS
FP8 (Dense) 17.5 PFLOPS 4.5 PFLOPS 1.98 PFLOPS
BF16 (Dense) 4 PFLOPS 2.25 PFLOPS 0.99 PFLOPS
TF32 (Dense) 2 PFLOPS 1.13 PFLOPS 0.50 PFLOPS

※ (Dense) 2:4 sparsity機能OFFTransformer Engine参照
※ (Adaptive compression) 0値計算をスキップする新機能(Transformer Engine参照

  • 演算性能が1.8/3.9倍⤴(B200比)
    • FP4/6/8のテンソルコア幅が2倍 → BF16/TF32と比べて、FP4/6/8の伸び率は2倍
    • コア数・クロックが増加 → どの精度でも満遍なく性能が1.8倍*ぐらい
  • Adaptive compression:0値をスキップすることで性能UP⤴(タスク依存)
  • ちなみに、電力効率はシステムレベル(Rubin NVL72)では10倍⤴(Blackwell NVL72比)

4. HPC演算性能 (CUDA Core)

深層学習において、CUDAコアはReduction・Element-wise処理・データ前/後処理などを担当し、LayerNormや活性化関数などで使われる。
(1 CUDAコア = 1 FMA / cycle = 2 FP32 FLOPS / cycle)

R200 B200 H100
FP32 130 TFLOPS 75.0 TFLOPS 66.9 TFLOPS
FP64 33 TFLOPS 37.5 TFLOPS 33.5 TFLOPS
  • FP32:コア数増加・クロック増加で性能1.7倍⤴(B200比)
  • FP64:コア数増加・クロック増加・面積削減で性能0.9倍にDOWN⤵(B200比)
    • FP4/6/8のテンソル幅2倍化のハードウェアリソースを確保するために、FP64はパイプライン削減に遭った
    • Emulated DGEMM(低精度TensorコアでFP64のGEMM演算)でFP64演算を代替するアプローチを薦めてる(200 TFLOPS)
      • このやり方では、reductionやvector演算は代替できない

5. SFU (Special Function Unit)

SFUは超越関数($\sin, \cos, \log_2, 2^x$, 逆数, rsqrt, ...)用で、SoftmaxやGELUなどで使われる。

R200 B200 H100
SFU数(再掲) 3,584 2,368 2,112
SFUスループット 2 op/cycle 1 op/cycle 1 op/cycle
SFUピーク (FP32 exp2) ~16,271 Gop/s ? ~4,689 Gop/s ~4,182 Gop/s
  • 計算スループット倍・クロック増加・SFU数増加で性能3.5倍⤴(B200比)
    • 実のところ、GB300の段階でスループット2倍SFUが実装されてる
  • Attention処理ではSoftmaxのexp計算がネックになっており、SFU性能が全体性能に効く
    • exp計算: CUDAコアで$y=x×\log_2(e)$の定数乗算をしてから、SFUで$2^y$する
    • Attentionでは、シーケンス長$L$に対して$O(L^2)$回のexp計算が必要

6. Transformer Engine

6.1. 精度・マイクロスケーリング フォーマット

精度フォーマット R200 B200 H100
FP4 (E2M1)
FP6 (E2M3 / E3M2)
FP8 (E4M3 / E5M2)
マイクロスケーリングフォーマット R200 (第3世代) B200 (第2世代) H100 (第1世代)
NVFP4
MXFP4/6/8
  • Blackwell (B200) から変更無し
  • NVFP4:数値精度低下による計算劣化(情報損失)をスケーリングで抑制する手法
    • 2段階スケーリングで効率よくスケーリングする
      • ブロックスケーリング:ブロック毎(16要素)に、absolute max値(FP8=E4M3)でスケール調整(実行時に都度計算)
        • MXFP4でのFP8=E8M0からダイナミックレンジが減少してるが、そこは以下のテンソルスケーリングを導入してカバーされる
      • テンソルスケーリング:テンソル全体を、absolute max値(FP32)でスケール調整(実行時に都度計算。ただし、推論時重みだけは事前計算)
    • メモリや計算のオーバーヘッドが生じるものの、数値精度低下による性能悪化を大きく抑えられる
      • 実の所これだけでは不十分で、 確率的丸め・末尾ブロック高精度化・等々も必要

6.2. Sparse機能

R200 (第3世代) B200 (第2世代) H100 (第1世代)
Adaptive Compression
2:4 Sparsity
  • Adaptive Compression:0値の処理をスキップして計算効率を向上させる手法
    • 全自動で簡単に適用できる(学習・コンパイル時とかの手間不要)
    • NVFP4の推論時のみ使用され、1.4倍の性能向上⤴
      • FP4は16段階なのでexact 0になりやすい
      • モデル内部のデータ分布は一般に0中心になりやすい
    • 詳細な情報はまだ出てない(今後の Developerブログ or 論文 待ち)
  • 2:4 Sparsity:グループ毎(4要素)に、2個を0と見做してスキップして計算効率を向上させる手法
    • NVIDIAがずっとプッシュしてたけど、遂に見放された‥
      • 精度劣化とかであまり使われなかった
        • 例: 4要素中の4個全部が非ゼロのとき、どれか2個をゼロ化してしまう
        • 例: 4要素中の1個がゼロのとき、無為にゼロが1個残ってしまう

感想

  • 順当に性能UPしてる
  • 新技術・アーキテクチャは少なめ(LPUは別枠)
    • NVFP4のように、この後で新技術が後から発表される可能あり
1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?