2016年6月 スパコンの世界ランキングTOP500で
突如No.1に躍り出た神威 太湖之光(Sunway Tianhu Light)
中国勢を除けばトップとなる Titan - Cray XK7 , Opteron 6274 16C 2.200GHz, Cray Gemini interconnect, NVIDIA K20x に対して4倍の絶対性能を示した。
絶対性能計測を指標とするTOP500ベンチに対する批判の声を反映して、電力効率ランキング Green500 がある。
しかし、その地球に優しいスパコン・ランキングGreen500でも第3位。
本当に驚異的なのはスパコンとしての性能ではなく、枯れたテクノロジーの水平思考とその組み合わせだけで構築した独自アーキテクチャだった。
枯れたCPU単品のスペックから見ていこう
-
クロックは1.45GHzと、スマホ未満の低クロック。
-
プロセスも40nmで2世代以上前の旧型。28nmでもなければ、FinFET 14nm でもない。
-
メモリもDDR3-2133で、GDDR5どころかDDR4でもない完全な旧世代
-
チップ間は普通にPCIe3.0で接続
-
チップ単位でJTAGデバッグ可能
一部のメディアでDecAlphaベースと報道されているが、これは誤報。
開発元はSoCと主張しており確かにSoCだが、ペリフェラルはごく普通のI/Fで周りを必要最低限、固めているに過ぎない。
コアは2種類。
- マスターとなるMPE
- スレーブとなるCPE x64
MPEはCPE x64 を取り纏める管理職みたいなものだ。
I-CACHEは16KB搭載している。
プログラムコードやDATAは外付けDDR3(8GB)にある。
C/C++で8GBアクセス可能なアプリを何も考えずに書ける。
そしてScratchPadを64kb搭載。
古くはFairchildF8が64byteのScratchPadを搭載していたが、PlayStation1に搭載していた1kbのScratchPad、
あるいはPlayStation2に搭載していた16kbのScratchPadを連想するエンジニアも多いかもしれない。
PlayStation3になって “local-store” と呼称されるようになったが本質的にはScratchPadに他ならない。
ScratchPadとはALUやREG付近に配置されたFF(SRAM)の塊に過ぎない。S/Wエンジニアが完全に制御できる反面、データキャッシュのように自動制御できないというデメリットも併せ持つ。
ところがSW26010のCPEではハイブリッドだ。PlayStationのように完全なScartchPadとして利用できるモードとは別に、データキャッシュエミュレートモードを設定することも可能だ。ただし、SW26010の開発者は低速のため推奨はしていない。
メモリはごく普通のDDR3 8GB が内蔵メモリコントローラMCを通して接続されている。
これだけのコアをすし詰めにして、やっと1チップ
-
SIMDのCPEが 4x64=256コア
-
取り纏め役となる管理職MPEが4コア
-
1チップに260コアのmany−coreアーキテクチャ
外部DDR3 8GB に実行バイナリを置いた上で、I-CACHE 16KB存在するので、パフォーマンスのことを考えなければプログラムサイズを気にすることなく普通のC/C++でアプリを記述できる。
しかしScarachPadを効率的に使おうとするとOpenACCの存在は欠かせない。
ScrachPad <-> ScratchPad 間のDMA転送が存在するか否かは不明だが、おそらく存在すると思われる。
最後に情報を惜しみなく提示して頂いた
神威太湖之光 / SW26010 を開発者、関係者の方々を紹介。
神威太湖之光 の続報に関して、乞うご期待。
2016/7/3 追記
nVidiaもビビってる 世界最速スパコン神威太湖之光
http://qiita.com/homhom44/items/4b03123920f4788dfca4