CUDA で GPU の 戦闘力の差 を 実感する...

  • 10
    いいね
  • 0
    コメント
この記事は最終更新日から1年以上が経過しています。

Overview

GTX-1080 など GeForce を Ubuntu 16.04 LTS で CUDA-8.0RC と共に使う で、Ubuntu 16.04LTSの上に、CUDA-8.0RCを使う環境を構築しました.

というわけで、performance (戦闘力)の差を確認しましょう

基本に戻ってハードウェアスペックの差

GeForce 型番 コアクロック CUDAコア数 最大消費電力 論理performance 750Ti比性能
GTX 1080 1607 2560 180 4113920 6.30
GTX 1070 1506 1920 150 2891520 4.43
GTX 980 1126 2048 165 2306048 3.53
GTX 970 1050 1664 145 1747200 2.68
GTX 960 1127 1024 120 1154048 1.77
GTX 950 1024 768 90 786432 1.20
GTX 780 863 2304 250 1988352 3.05
GTX 750 Ti 1020 640 60 652800 1.00

つまるところ、6倍の絶対演算性能の差がHW上はある、ということです。
そして、180W/6=30Wなので、消費電力あたりの性能は750Tiの2倍ということですね。

メモリーの量が8GB(GTX-1080) vs 2GB (GTX-750Ti)とかもあるので、そのあたりがどうなのか?という点です。

benchmark

では実際に走らせてみましょう。

GTX-750Ti

hidenorly@ubuntu-gtx:~/NVIDIA_CUDA-8.0_Samples/5_Simulations/nbody$ ./nbody --benchmark --numbodies=256000 --device=0
..snip..

> Windowed mode
> Simulation data stored in video memory
> Single precision floating point simulation
> 1 Devices used for simulation
gpuDeviceInit() CUDA Device [0]: "GeForce GTX 750 Ti
> Compute 5.0 CUDA device: [GeForce GTX 750 Ti]
number of bodies = 256000
256000 bodies, total time for 10 iterations: 14209.303 ms
= 46.122 billion interactions per second
= 922.438 single-precision GFLOP/s at 20 flops per interaction

GTX-1080

~/work/cuda/NVIDIA_CUDA-8.0_Samples/5_Simulations/nbody$ ./nbody -benchmark -numbodies=256000 -device=0

..snip..

> Windowed mode
> Simulation data stored in video memory
> Single precision floating point simulation
> 1 Devices used for simulation
gpuDeviceInit() CUDA Device [0]: "GeForce GTX 1080
> Compute 6.1 CUDA device: [GeForce GTX 1080]
number of bodies = 256000
256000 bodies, total time for 10 iterations: 2401.327 ms
= 272.916 billion interactions per second
= 5458.315 single-precision GFLOP/s at 20 flops per interaction

結果

綺麗に、5438.315 / 922.438 = 5.9465 という感じで、物理的な演算能力の差が、benchmarkでも綺麗に出ました。

約6倍のパフォーマンスですが、価格は今のところGTX-750Tiの10倍でGTX-1080ということで、このあたりを天秤にかければ良いと思います。
(750Tiでもi7-870のCPU単体よりも10倍はChainerでword2vecでも速いという結果があります。わずか1万2000円ほどの投資で・・・)

なお、750Tiは3DMark2016でも、20fpsぐらいしか出ないので、本来はその3倍はパフォーマンスがほしいです。ですので、今後、GTX-1060とか出て、時間が経過してこなれたら購入すれば良いかもしれませんね。

別途word2vecとかでも後で走らせて性能比較しておきます。