Ubuntu
CUDA
NVIDIA
Pascal
volta

NVIDIA DGX Stationを試してみた

これは Retty inc. Advent Calendar 2017 17日目の記事です。
前回は2017年12月16日に更新 @takumi-suzukiRDS からEC2へ Multi-master replicationを組んでみたでした。

NVIDIA DGX Stationについて

NVIDIA Tesla V100搭載、NVIDIA DGX StationはDGXシリーズでは初めてパーソナルな
スーパーコンピューターを実現。 4基のPCI-Express タイプのTesla V100をNV-LINKで
相互接続する据え置き型のワークステーションです。
(国内代理店より: http://www.gdep.co.jp/information/hot/1308/)

これまではDGX-1というラッキングサーバ型の製品があり、データセンタ等に設置後、
複数ユーザがssh接続にてリソースを利用するようなスタイルでしたが、DGX Stationに関しては
自分のデスクの脇に置くワークステーションのスタイルになっているのが特徴的なところです。

NVIDIA公式 https://www.nvidia.com/en-us/data-center/dgx-station/

DGX Stationの貸出

11月下旬頃にNVIDIAの方からDGX Station貸出をしていただき、箱出しから設置、基本的な性能の確認
弊社エンジニアがマルチGPUでの利用を検証し、約1週間程度で返却を行いました。

DGX Station到着 @ Rettyオフィス

Screenshot from 2017-12-15 11-59-24.png

Screenshot from 2017-12-15 12-03-35.png

機器が大きく3人体制で持ち運びするよう待ち構えていましたが、段ボール製のスライダーとDGX Station下部にはコロコロが付いており、簡単に引き出して設置することが可能です。

Screenshot from 2017-07-04 14-02-53.jpg

Rettyオフィス内にあるサーバルームにて、他のサーバの音で静音性のチェックはしていません。

DGX Station各種性能確認

Screenshot from 2017-12-15 12-11-49.jpg

DGX Stationは簡単に側板を開けることが可能です、側板を外してみるとNVIDIA Tesla V100が4枚、
CPUが1つ、メモリが8枚
刺さっているのが見えます。Tesla V100とCPUは水冷機構によって
冷やされていることがわかります。

ドキュメントを読むと1年に1度くらいは水冷のメンテナンスをする必要があるとのこと。

Screenshot from 2017-12-15 12-45-57.jpg

背面には各種インターフェースと10G NICが2つDisplayポートが3つ搭載されています。
NVIDIAの方が言っていましたが、この構成で3つのDisplayポートが利用できるのは
DGX Stationの1つの魅力だそう。

Screenshot from 2017-12-07 14-21-25.png

電源投入後は約332Wくらいで安定します。

Screenshot from 2017-12-15 12-51-15.jpg

OSはUbuntu16.04が導入されています。

Ubuntu UnityでDesktopとしての利用も可能です。
aptリポジトリ設定を覗いてみましたが、NVIDIAのリポジトリを用意しているわけではなく、
Canonical社提供のubuntu.comをそのまま利用し日頃親しんでいるパッケージもインストール可能です。

標準でNVIDIAドライバが入っていますのでnvidia-smiをすると4枚のTesla V100が確認できます。

Screenshot from 2017-12-15 13-02-31.jpg

NVIDIA GPU CLOUDが導入されています。

Dockerを利用しCUDA9やDeepLearning用の
各種フレームワークをインストールの手間なく利用することが可能です。
caffe,caffe2,mxnet,pytorch,tensorflow,theano,torch 標準でインストール済み

docker pullしたところ約9GBくらいダウンロードが必要でした。
1ヶ月単位でDGXシリーズに最適化されたフレームワーク等がリリース、提供されているとのこと。

Screenshot from 2017-12-15 13-17-48.jpg

CPUは1ソケットで物理20コア、OS側では40コアとして見えます。
意外と社内ではCPUリソースを利用する為にDGX Stationにログインする方がいました:-p

Screenshot from 2017-12-15 13-22-24.png

メモリはDDR4 32GBメモリが8枚刺さっていて256GBが利用可能です。
試しにtmpfsを作成しメモリ速度を確認してみたところ、約2.3GB/sくらいのスピードが出ます。

Screenshot from 2017-12-15 13-25-42.jpg

ストレージはOS領域のSSDが1台、データ領域のRAID0をSSD 3台で構成されています。

SSD 1台の性能は、読込が480MB/s、書込が520MB/s
RAID0 SSD 3台の性能は、読込が1600MB/s、書込が1300MB/s

RAID0ストライピング構成を活かしているようです。

Geekbench4によるCUDAベンチ結果

Screenshot from 2017-12-15 15-13-17.png

NVIDIAの方々はDeepLearning用の各種フレームワークでのベンチを取っているようなので
今回は簡易性能測定にGeekbench4を利用します。
OpenCLベンチは無料ですが、CUDAベンチは有償(US$10)をお支払い。

Screenshot from 2017-12-15 15-17-53.jpg

DGX Stationに搭載されているTesla V100のスコアは 649339
Geekbench4ランキングではTOP3の値となっています。

Tesla V100-DGXS-16GBスコア: https://browser.geekbench.com/v4/compute/1485724
Geekbench4 Top results https://browser.geekbench.com/v4/compute?dir=desc&sort=score

09b0752e-402f-cf40-0559-f3b413c71a66.png

ベンチ測定時は約400W程度の電源使用。
今回紹介はしていませんがマルチGPU利用時約660W程度になります。

Screenshot from 2017-12-15 15-22-08.png

Retty社内にあるDellサーバに搭載のPascalアーキテクチャのTesla P100と比べてみると
数値差は約2倍程

Dell PowerEdge R730 + Tesla P100スコア: https://browser.geekbench.com/v4/compute/1489997

Screenshot from 2017-12-15 15-25-35.png

Tesla P100を比べてみてからRetty社内にある機械学習基盤に搭載されているNVIDIA GTXとも
比べてみたいなと思い社内で利用できるGPUを比べてみました、GPUによりますが数値的には
それぞれ約2倍から6倍以上の数値差となりました。

この数値から、今後はVoltaアーキテクチャのGPUに投資をしてもらいたくなる結果。

Quadro GP100: https://browser.geekbench.com/v4/compute/1537272
GTX 1080 Ti: https://browser.geekbench.com/v4/compute/1537108
GTX 1080: https://browser.geekbench.com/v4/compute/1537122
GTX 1070: https://browser.geekbench.com/v4/compute/1537138
GTX 1060: https://browser.geekbench.com/v4/compute/1537215
GTX 1050 Ti: https://browser.geekbench.com/v4/compute/1537179

GTC Japan 2017 @ Hilton Tokyo Odaiba

Screenshot from 2017-12-15 15-48-45.png

尚、これまで紹介してきたDGX Stationの情報は2017年12月12日-13日で行われたGTC Japan 2017の
インベント内プライベートセッション第1回DGX User Group Meetingにて紹介させていただきました。
参加されたNVIDIAプロダクトマーケティングのTony PaikedayさんやDGXプロダクトマネジメントの
Markus Weberさんと交流を深めることができました。

明日は @makoto-nagai の Core Imageを使ったiOS上での画像フィルタの実装です。