『GPUを支える技術』とディープラーニング
2017/07/26 水曜日にPyData Tokyo Meetup #14に参加してきました。
内容はNVIDIAの方によるディープラーニングでして、ディープラーニング用NVIDIA GPUの選び方やNVIDIAのディープラーニング界隈への貢献をきくことができました。
ちょうど先週から「GPUを支える技術」を読んでいたので、GPUについて学んだことをまとめたいと思います。
個人的なGPUの思い出
始めてGPUを使ったのは10年くらい前の大学時代にPCを組み立てたときです。CPUはAMD、GPUはGeForceにした覚えがあります(マザーボードはASUSだったかな?)。
AMDにもRADEONがありますが、せっかくPC自作するならいろいろ違うものを組み合わせよう、とGPUはNVIDIAにしたのです。
GPUがほしかった理由はスト4をプレイしたかったからでした。
その後就職してからは自宅であまりPCを使わなくなり(プログラミングの重い処理にはAWSやAzureを使うため、自宅PCに金をかけなくなり)、GPUとの蜜月は終わりました。
あと、当時はGeForceを「ゲフォース」と呼んでいました。
ここ1,2年くらい仕事や趣味でディープラーニングをやり始めて、またGPUがほしくなってきたため、会社でTeslaを買う交渉をしているのが近況です。
GPU
さて、PyDataでのディープラーニングセッションですが、ディープラーニング向けNVIDIA GPUの選び方からNVIDIAが開発しているソフトウェアまで、いろいろを聞くことができました。
内容はほぼこの資料にあります。
NVIDIA GPUの選び方メモ
ディープラーニングには大きく2つのフェーズがあります。
- 学習(Training)フェーズ:収集したデータから予測モデルを生成します。ディープラーニングの学習については以下をご参考ください。ディープラーニングとGPUの関係で重要なのは、学習フェーズでは浮動小数点数(または倍精度浮動小数点数)演算をものすごいたくさん計算しなければならない、ということです。ディープラーニングでは学習時に入力データと重みの積和演算を繰り返し(フォワードプロパゲーション)、そして重みを修正するために微分と積和演算を繰り返し(バックプロパゲーション、誤差逆伝播法)、ということをひたすら繰り返すという重い処理が長時間流れます。その積和演算にGPUのコアが有効になります。
- 予測(推論、Inference, Predict)フェーズ:学習で作ったモデルを実利用します。学習では学習用に用意したデータを使いますが、予測では実データを投入します。こちらはフォワードプロパゲーションを1回のみで、バックプロパゲーションも繰り返しもありません。学習に比べたら軽い処理になりますが、オンラインでリアルタイムに利用される予測モデル(スマホカメラとディープラーニングの組み合わせとか、金融商品取引とか)だと、やはりスピードが重要になります。
はじめるDeep learning
【機械学習】ディープラーニング フレームワークChainerを試しながら解説してみる。
ディープラーニングの2フェーズのうち、学習は浮動小数点数演算(float32)か倍精度浮動小数点数演算(float64)になります。予測ももちろん浮動小数点数演算を使いますが、スピード重視のために半精度浮動小数点数(float16)や整数(int8)が使われることもあります。浮動小数点数のほうが正確だけど、リアルタイム処理は無理(演算能力的に)というときはfloat16やint8です。精度と時間と技術は三角関係のトレードオフなのです。
最新のPascal世代GPUは学習向けと予測向けがわかれているようです。
- GP100(CC6.0)は学習向けで、float16, float32, float64をサポート。ただしint8は未サポート。つまり、浮動小数点数演算であればブッチギリで速いが、整数演算は並(計算できないわけではない)。電力消費は莫大で、データセンターとかで使うことが想定されているっぽい。
- GP102(CC6.1)は予測向けで、float32とint8をサポート。ただしfloat16やfloat64は未サポート。電力消費も抑え気味。PCとか社内サーバとか、身近な場所で使う想定(?)
用途でわかれているPascal GPUですが、次世代のVoltaでは浮動小数点数も整数も1GPUでサポートする予定らしいです。
余談
なお、予測ではFPGAを使おうという研究もあります。この辺りはIntelやMicrosoft、Googleが頑張っているようです。
そろそろプログラマーもFPGAを触ってみよう!
ニューラルネットワークの量子化についての最近の研究の進展と、その重要性
アーキテクチャ
詳しく書き始めると本が1冊できあがる(GPUを支える技術)ので、手短に。
GPUは元来は画像処理(ディスプレイへの表示)を担う機器でしたが、構造的に一部の科学技術計算を行うのに向いていたため、その方面での利用(画像処理に特価しない、より一般的な利用。GPGPU=General Purpose GPU)に向けた開発も進めてきました。
GPUが画像処理を行うにあたり、座標変換計算(パイプライン)と色や明るさの計算(ライティング)をリアルタイムに行うため、1デバイスに多数の演算器(コア)とメモリ・キャッシュを登載しました。CPUと違ってGPUは単純な計算を同時にたくさん実行することが求められたのですが、それがちょうど科学技術計算でも必要なものだったのです。
その流れで、画像処理では不要だった倍精度浮動小数点数演算やエラー検出・訂正、CUDAプログラミングが登場してきます。つまり、科学技術計算ではfloat32で不足する桁数をfloat64(またはfloat128)にする必要があり、さらには画像処理で不要だった各演算のエラー検出が科学技術計算では必要になりました(計算エラーが科学技術の正確性を損ねるため)。
アーキテクチャとしては、GPUの演算器は複数のSM(ストリーミング・マルチプロセッサ)で区切られており、SMの中にコアがたくさん搭載されている構成です。
コアには計算に応じた種類があり、float16・float32演算を行うCUDAコア、float64演算を行うFP64、三角関数や平方根演算を行うSFUがあります。命令はスレッドブロックという単位となり、SMに割り当てます。SM内では32スレッドをワープというまとまりにして同時並列実行します。複数ワープができあがるときはワーププールに格納し、ワープスケジューラが実行制御(入力オペランドが揃い、実行可能になったワープから順番に実行)します。
GPUのメモリはデバイスメモリが採用されています。デバイス上にレジスタ、L1/L2キャッシュ、シェアードメモリ、メモリがある構成です。レジスタ、L1/L2キャッシュ、メモリはCPUと同様です。シェアードメモリとはスレッド間でデータのやり取りをする共有空間です。
GPUとマザーボードとはPCI-Expressで接続します。しかしPCI-Expressでは遅いことがあるので、NVIDIAではNVLINKという独自規格でGPU間を相互接続できるようです。
・・・全然手短になりませんね。まあ詳しいことは本やホワイトペーパーを読みましょう(力尽きました。ごめんなさい)。
GPUを支える技術
NVIDIA Pascal GPU Whitepaper
NVIDIAが出している便利そうな製品やツール(GPU以外)
自分メモ用です。NVIDIAの商品紹介ではありません。
DGX1
Pascal世代GPUを8個登載したNVIDIAのスーパーサーバです。すげえ。
下記のNCCLでマルチGPUディープラーニングができるし、環境を分割したい場合(特定バージョンのTensorFlowを使いたい、とかとか)はDockerコンテナを使うようです。
NCCL
NCCLはNVIDIAのマルチGPUライブラリです。複数GPUでディープラーニングを分散処理するために使うようです。
現在のNCCLだと同一サーバのGPU連携ですが、NCCL2になるとマルチサーバでのマルチGPU分散処理(サーバ間はInfinibandで接続)になるようです。
NCCL2も登録すれば使えるようですね。
NVIDIA Docker
NVIDIAの提供しているDockerイメージです。
各イメージは特定のディープラーニングフレームワークでのCUDA利用に最適化されているようです。もちろん、DockerホストサーバにGPUが必要です。
Digit
ノンプログラミングで使えるディープラーニング学習、予測環境です。インストーラ、AWS AMIやDockerイメージで提供しています。
ディープラーニングをやってみたいけど、プログラミングが難しそうという方向けです。
終わりに
GPUで遊びたいです。