#1.この記事の内容
自宅のWindows PCを用いてWSL環境でDeepLearningの学習を実行していましたが,GPUのメモリ不足が生じたり,GPU温度が90度近くまで上昇したりと,実行上の問題点や不安要素が生じたことから,自宅PCで対応しきれない規模の学習にAWSを使用することとしました.
基本はDeep Learning AMIの10分間チュートリアルの深層学習モデルのトレーニングに記載の手順で環境構築が可能ですが,足りなかった内容を本記事で補足します.
#2.GPU学習環境構築に関する補足
##2.1 EC2へのアクセス時のセキュリティルールの設定
セキュリティルールのインバウンドルールの編集が必要で,SSHとRDPに対してソースをマイIPに設定する必要があります.
この設定ができない場合,SSH接続などでタイムアウトが発生し,接続に失敗します.
##2.2 Amazon ECRへのアクセス情報の保存
Amazon ECR へのアクセス許可の為にユーザ追加をした場合,追加時の画面から参照できる「Access key ID」と「Secret access key」の情報はcsvファイルの保存またはメモを残しておきます.
これらの情報は作成後は参照ができない為,保存しなかった場合は再度作り直す必要があります.
##2.3 Deep Learningコンテナイメージの選択
チュートリアル以外にAvailable Deep Learning Containers ImagesからDockerイメージを選択する事ができます.用途に応じて選択します.
##2.4 ボリュームの拡張
データセットのダウンロードや学習ログの保存を考慮すると,条件にもよりますが,120GB以上は必要と思います.
必要に応じてボリュームの拡張が必要で,拡張後はファイルシステムの拡張設定が必要な場合がありますので,ボリュームサイズ変更後の Linux ファイルシステムの拡張から設定してください.
##2.5 WinSCPでインスタンスに接続
学習結果を取得する為に,WinSCPを用いてSCPでインスタンスに接続します.
ホスト名に「パブリック IPv4 DNS」を設定し,ユーザ名はインスタンス生成時のユーザ名(Deep Learning AMIではubuntu)を設定します.
鍵認証の為,パスワードは空白のままで,「設定」→「SSH」→「認証」→「秘密鍵」にキーペア(pemファイル)を選択します.
OpenSSH形式からPuTTY形式に変換するかを聞かれるので,「はい」を選択してppkファイルを保存し,秘密鍵にppkファイルを設定します.
#3.AWS料金のリンク
-
Amazon EC2 オンデマンド料金
- インスタンスタイプに高速コンピューティングを選択して上位に出てくるp2,p3,p4がDeep Learningの学習によく用いられるインスタンスと思います
- Amazon EBS の価格
#4.さいごに
軽い学習は自宅PCで,重い学習はAWSを使うという考え方です.
他の問題点が生じた時には本記事に追記していこうと思います.
Jupyter Notebookを多用される方はGoogle Colabを活用するのもありですね.
#4.関連リンク