2
Help us understand the problem. What are the problem?

More than 1 year has passed since last update.

posted at

updated at

新しくローンチされたAWSのGPU搭載EC2インスタンス G4 のパフォーマンスを比較する

はじめに

経路探索エンジンの研究開発をしているM.Yです。

ナビタイムジャパンでは、2019/07/30、自転車NAVITIMEへ向けてGPUによる探索エンジンをリリースしました。リリース時点でP2インスタンスを利用していましたが、2019/09/20に、NDIVIA GPUの最新アーキテクチャであるTuringを採用したAWS EC2インスタンスG4がローンチされました。

そこで早速パフォーマンスを調べたのですが、他のGPU搭載EC2インスタンスに比べて圧倒的にコスパが良かったため、すぐにG4インスタンスへ切り替えました。その際に行った他のGPUインスタンスとの性能とコストの比較結果を紹介します。

G4インスタンスについて

NVIDIAの最新アーキテクチャであるTuringを採用したGPU、Tesla T4を搭載したEC2インスタンスです。2019年3月に開催されたGTC 20191にて、AWSからインスタンスの提供が発表され、2019年9月に利用可能になりました。

スペックと各インスタンスのオンデマンド料金は以下の表のとおりです。最新アーキテクチャにも関わらず、G4インスタンスのコストの安さが際立っています。

アーキテクチャ CUDAコア数 デバイスメモリ オンデマンド料金
p2.xlarge Kepler 2496 12GB 1.542 $/hr
p3.2xlarge Volta 5120 16GB 4.194 $/hr
g4dn.xlarge Turing 2560 16GB 0.71 $/hr

ベンチマーク

測定条件

GPUを利用した自転車ネットワーク探索エンジンで探索距離毎(6~1400km)にアーキテクチャの比較を行いました。
比較したのは上述した各アーキテクチャのインスタンスです。

測定結果

graph1.png

こちらが絶対値での比較です。

graph2.png

こちらがP2の探索時間を100としたときの各アーキテクチャの処理時間の比率です。

P3のパフォーマンスは凄まじく、P2と比較して平均3.17倍の高速化となりました。しかしコストがP2と比較すると2.71倍と相応のコストがかかります。

G4もP2とCUDAコア自体の数はほとんど変わらないにも関わらず、P2と比較して平均1.81倍の高速化ができています。しかもコストが0.46倍となります。

つまり、P3はコストをかけて速くしているのと等価ですが、G4はコストが安くなるのに速くなりました。

アーキテクチャ P2との速度差 P2とのコスト差 P2とのコストパフォーマンス
p3.2xlarge Volta 3.17 2.71 1.17
g4dn.xlarge Turing 1.81 0.46 3.93

まとめ

P2インスタンス使っている方はG4インスタンスの利用を積極的に検討しましょう。

今回の比較はGPGPUでのパフォーマンス比較でしたが、G4インスタンスでは前述したとおりTuringアーキテクチャであるTesla T4を利用しており、このGPUには機械学習計算に特化したプロセッサであるTensor Coreも搭載されているため、P2インスタンスと比較すると機械学習でのパフォーマンスも確実に上がっていると思いますので利用を検討する価値があると思います。


  1. サンノゼで毎年開催されているNVIDIAのテクノロジーカンファレンス 

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Sign upLogin
2
Help us understand the problem. What are the problem?