RTX5090のTensorコア数
2025年01月07日の発表だと以下の通りでTensorコア数が現時点で不明だった。
AI TOPS(TFLOPSの浮動小数ではなくInt版?)の値からRTX50番台のTensorコア数を考えてみたい。
RTX4090のAI TOPS
Tensorコアは16×16の演算を1クロックで出来、Int8の演算に換算すると1クロックで512回演算できるらしい。さらに疎行列の演算では速度が2倍になるため、Tensorコア数×ブーストクロック×1024を計算すると知られている1321 T(テラ)OPSの値が計算できる。
参考:
RTX5090のAI TOPS
次に5090のAI TOPSをからTensorコア数を推定してみよう。
RTX 40番台ではTensorコア数とRT(レイトレーシング)コア数は4対1の関係性があり、おそらくこの比率は変わらないだろう。また、Tensorコア数×ブーストクロック×2048と計算式は40番台の2倍大きい計算式を用いた。この2倍がどこから出てきたのかはよく分からないがFP4の計算でFP8の計算より2倍効率が良いのかもしれない。
赤字は推定値及び計算値である。
5090のリーク
さて、上述で5090~70のTensorコア数は680、336、280、192と見積もったが、この値は以下の5090リークのGPU SMs(170、84、70、50)の4倍にほぼ等しい。あえて言うなら5070だけ違っており、リークだと50の4倍の200になる筈だが、計算上は48の4倍の192に近い。
まあ、それはさておいて自分の推定はおそらく正しいのだろうというのが確認できた。
まとめ
AI TOPSだと5090は4090の2倍以上の性能になっているがTensorコア数的には精々1.3倍くらいにしか増えてないのではと思った。