Deep Learning 界隈のツールはまだまだアップデートが激しくて、ちょっと目を離すと環境構築手順が変わっていたりするので面倒くさい。
むかし書いた 趣味でディープラーニングするための GPU 環境を安上がりに作る方法 が今でも地味に伸びているのだけど、あの頃の環境構築手順とも変わってきたのでもう一度まとめておく。
あと Amazon EC2 の p3 インスタンスで Tesla V100 が使えるようになったので、どれだけ速いのか試してみたかった、というのもある。
(2018.10 追記) NVIDIA Volta Deep Learning AMI
NVIDIA Volta Deep Learning AMI なんてのがあることを知った。
- NVIDIA 公式
- Ubuntu Server 16.04 ベース
- Volta 用のドライバインストール済み
- Docker + NVIDIA Docker インストール済み
AWS で、かつ Volta GPU (p3 インスタンス) を使うのであればコレを使えばいいと思う。
作る環境
- Amazon EC2 の p3.2xlarge インスタンス
- 現時点で最強の GPU、Tesla V100 が載っている、とても強い
- とても高い (3.06 USD/時間)
- Ubuntu 18.04 LTS
- Docker 18.06
- NVIDIA Docker 2
作り方
GPU ドライバを入れる
apt
で入るドライバでも V100 に対応しているらしい。
$ sudo apt update
$ sudo apt install -y nvidia-384
$ sudo reboot
確認
$ nvidia-smi
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 390.48 Driver Version: 390.48 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2... Off | 00000000:00:1E.0 Off | 0 |
| N/A 31C P0 39W / 300W | 0MiB / 16160MiB | 3% Default |
+-------------------------------+----------------------+----------------------+
nvidia-384
をインストールするとバージョン 390.48 のドライバが入るのは一体何故なんだぜ?
Docker を入れる
Docker 公式ドキュメント に従って docker-ce
を入れる。
apt install docker.io
でも Docker をインストールできるが、これだと少しバージョンが古くてこの後入れる NVIDIA Docker 2 が入らないので、公式ドキュメントに従って最新版を入れる必要がある。
あとログインユーザから Docker リソースを触れるように権限を与えておく。
$ sudo usermod -aG docker $USER
これはログインし直すと反映される。
NVIDIA Docker 2 を入れる
以下の2つの公式ドキュメントに従って、NVIDIA Docker 2 を入れる。
試しに動かす
Keras の MNIST サンプルが動く Dockerfile がこちら。
FROM nvidia/cuda:9.0-cudnn7-runtime
RUN apt update && apt install -y python3-pip
RUN pip3 install tensorflow-gpu keras
RUN apt install -y wget
RUN wget https://raw.githubusercontent.com/fchollet/keras/master/examples/mnist_cnn.py
CMD ["python3", "/mnist_cnn.py"]
CUDA 9.1 以上にはまだ TensorFlow が対応していない?っぽいので 9.0 を利用した。
これをビルドして動かしてみる。
$ docker build . -t mnist
$ docker run --runtime=nvidia --rm -it mnist
Using TensorFlow backend.
Downloading data from https://s3.amazonaws.com/img-datasets/mnist.npz
11493376/11490434 [==============================] - 4s 0us/step
x_train shape: (60000, 28, 28, 1)
60000 train samples
10000 test samples
Train on 60000 samples, validate on 10000 samples
Epoch 1/12
2018-09-18 09:32:37.310108: I tensorflow/core/platform/cpu_feature_guard.cc:141] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA
2018-09-18 09:32:38.461658: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:897] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
2018-09-18 09:32:38.462128: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1405] Found device 0 with properties:
name: Tesla V100-SXM2-16GB major: 7 minor: 0 memoryClockRate(GHz): 1.53
pciBusID: 0000:00:1e.0
totalMemory: 15.78GiB freeMemory: 15.36GiB
2018-09-18 09:32:38.462169: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1484] Adding visible gpu devices: 0
2018-09-18 09:32:38.837916: I tensorflow/core/common_runtime/gpu/gpu_device.cc:965] Device interconnect StreamExecutor with strength 1 edge matrix:
2018-09-18 09:32:38.837997: I tensorflow/core/common_runtime/gpu/gpu_device.cc:971] 0
2018-09-18 09:32:38.838016: I tensorflow/core/common_runtime/gpu/gpu_device.cc:984] 0: N
2018-09-18 09:32:38.838372: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1097] Created TensorFlow device (/job:localhost/replica:0/task:0/device:GPU:0 with 14865 MB memory) -> physical GPU (device: 0, name: Tesla V100-SXM2-16GB, pcibus id: 0000:00:1e.0, compute capability: 7.0)
60000/60000 [==============================] - 12s 201us/step - loss: 0.2613 - acc: 0.9205 - val_loss: 0.0542 - val_acc: 0.9827
Epoch 2/12
60000/60000 [==============================] - 3s 44us/step - loss: 0.0869 - acc: 0.9738 - val_loss: 0.0391 - val_acc: 0.9867
Epoch 3/12
60000/60000 [==============================] - 3s 44us/step - loss: 0.0627 - acc: 0.9809 - val_loss: 0.0330 - val_acc: 0.9894
Epoch 4/12
60000/60000 [==============================] - 3s 44us/step - loss: 0.0539 - acc: 0.9837 - val_loss: 0.0342 - val_acc: 0.9884
Epoch 5/12
60000/60000 [==============================] - 3s 44us/step - loss: 0.0470 - acc: 0.9865 - val_loss: 0.0294 - val_acc: 0.9894
Epoch 6/12
60000/60000 [==============================] - 3s 44us/step - loss: 0.0411 - acc: 0.9874 - val_loss: 0.0313 - val_acc: 0.9892
Epoch 7/12
60000/60000 [==============================] - 3s 44us/step - loss: 0.0380 - acc: 0.9881 - val_loss: 0.0276 - val_acc: 0.9900
Epoch 8/12
60000/60000 [==============================] - 3s 44us/step - loss: 0.0337 - acc: 0.9895 - val_loss: 0.0299 - val_acc: 0.9901
Epoch 9/12
60000/60000 [==============================] - 3s 44us/step - loss: 0.0308 - acc: 0.9906 - val_loss: 0.0277 - val_acc: 0.9909
Epoch 10/12
60000/60000 [==============================] - 3s 44us/step - loss: 0.0290 - acc: 0.9909 - val_loss: 0.0322 - val_acc: 0.9897
Epoch 11/12
60000/60000 [==============================] - 3s 44us/step - loss: 0.0268 - acc: 0.9919 - val_loss: 0.0269 - val_acc: 0.9909
Epoch 12/12
60000/60000 [==============================] - 3s 44us/step - loss: 0.0267 - acc: 0.9919 - val_loss: 0.0246 - val_acc: 0.9914
Test loss: 0.024574520272191876
Test accuracy: 0.9914
p2 インスタンス (Tesla K80) のときは 1 epoch あたり 9s だったのが、3s で終わっている。
すっごーい (適当)