はじめに
Dataikuでディープラーニングを扱うにあたってGPUの設定を行ったので、その内容をまとめておこうと思います。また、簡単にDataikuでGPUを使ってディープラーニングを行う方法についてまとめました。
今回使用した環境は以下の通りです。
- AWS EC2インスタンスタイプ: p2.xlarge
- OS: Ubuntu 18.04.5 LTS
- Dataiku DSS: Version 8.0.4
環境側での設定
ドライバのインストール
まず初めに、リポジトリを追加しNVIDIAのドライバをインストールします。
$ wget http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/cuda-repo-ubuntu1804_10.2.89-1_amd64.deb
$ sudo dpkg -i cuda-repo-ubuntu1804_10.2.89-1_amd64.deb
$ sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64/7fa2af80.pub
$ sudo apt update
$ wget http://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1804/x86_64/nvidia-machine-learning-repo-ubuntu1804_1.0.0-1_amd64.deb
$ sudo apt install ./nvidia-machine-learning-repo-ubuntu1804_1.0.0-1_amd64.deb
$ sudo apt-get update
$ sudo apt install ubuntu-drivers-common
$ sudo ubuntu-drivers autoinstall
$ sudo reboot
再起動後、nvidia-smi
を実行してGPUの情報が表示されれば、インストール成功です。
CUDAとcuDNNのインストール
次にCUDAとcuDNNをインストールします。
Dataikuで対応しているバージョンがCUDAは9または10.0、cuDNNは7なので、今回はCUDA 10.0とcuDNN 7をインストールします。
$ sudo apt install -y --no-install-recommends cuda-10-0
$ sudo apt install -y --no-install-recommends libcudnn7 libcudnn7-dev
DataikuでCode-Envの設定
続いて、Dataiku上でGPUを使用するためのCode-Envを作成します。
Dataikuにログインしたら、右上のメニューを開き、[Administration]を選択します。
Dataikuの設定画面が開きます。設定画面のタブの中から、[Code Envs]をクリックします。
下画像のような画面になるので、[NEW PYTHON ENV]をクリックします。
名前を適当に付けます。他の部分の設定は変更しないで大丈夫です。入力したら[CREATE]をクリックします。
すると、Code Envの作成が始まるので少し待ちます。作成が終わるとCode Envが追加されますのでそれを選択します。
左のメニューから[Packages to install]を選択します。
Packages to install画面で[ADD SETS OF PACKAGES]をクリックします。
下画像のようなダイアログが表示されるので、Required packages forのメニューを開き、[Visual Deep Learning: Keras, Tensorflow (GPU with CUDA 10.0 and cuDNN 7)]選択します。その後[ADD]をクリックします。
すると、ディープラーニングに必要なライブラリが自動で入力されます。その後、[SAVE AND UPDATE]をクリックすることで、それらのインストールが始まります。
これで、GPUを使用するための準備は完了です。
DataikuでのGPUの使い方
Dataikuで設定したGPUを使って計算する方法を簡単に説明したいと思います。
データセットを選択し、表示された画面右側のメニューから[LAB]をクリックします。
Visual analysisメニューから[Deep Learning Prediction]を選択します。
表示されたダイアログで、目的変数を選択するメニューが表示されるので、予測したい項目を選択します。(今回のデータはKaggleのHouse Pricesのデータを使用しています。)
[Deep Learning]が選択されていることを確認し、[CREATE]をクリックします。
下画像のように、モデルのデザイン画面が表示されます。今回は細かい設定はせず、このまま[TRAIN]をクリックします。
表示されたダイアログの中で、ACTIVE GPU FOR TRAININGをクリックしてOFF→ONにします。これで計算時にGPUを使用するように設定されます。
PCに複数GPUが搭載されている場合は、下画像の赤枠内に複数GPUが表示され、使用するGPUを選択することができます。GPUを選択したら[TRAIN]クリックすれば学習が始まります。
少し待つと学習が終わり、結果が出力されます。今回は何も調整を行っていないため、結果は気にしないでください。
DataikuでGPUを使用する方法については以上です。
今後、Dataikuを使用してディープラーニングなどを行いたいときは参考にしてください。