Pythonの機械学習環境をコンテナで構築
ノートPCにPythonの機械学習環境をコンテナで構築します。
今回は、主にテキスト系機械学習用の環境として、fastTextとPython3が使えるコンテナを構築します。
イメージ
- 実行(学習と検証)は機械学習用コンテナにシェルでログインし、fastTextとPython3の実行を行う。
- ソースコードと学習用ファイルはPC上のフォルダをマウントする。
- エディタはVisual Studio Codeを使う。
作業
https://qiita.com/penpenta/items/3b7a0f1e27bbab56a95f
環境
- Windows 10 Pro
- Memory : 8GB
- Docker Desktop for Windows
ベースになるコンテナイメージを起動
まずベースになるコンテナイメージを起動します。
ここでの実行コマンドはビルドしたコンテナイメージを実行するコマンドと同じにしておくほうが良いでしょう。
今回はfastTextをコンテナ内でビルドするため、CentOSのイメージを使います。
1 . 以下のコマンドでベースになるコマンドを実行します。
docker run -it -v /c/temp/data:/data --rm centos:centos8 /bin/bash
少しずつ必要なものをインストールし検証
最初からDockerfileによるビルドをしても良いですが、インストールエラーになる場合もあります。
この作業は少しずつ環境を検証しながら進めるために行います。
Pythonインストール~fastTextビルド
- 以下のコマンドを実行します。※pip3 install実行後の"Running setup.py install for fasttext ..."で少し待ちます。
dnf -y install python36
yum install -y git make gcc gcc-c++
yum install -y python36-devel
cd /usr/local/src
git clone https://github.com/facebookresearch/fastText.git
cd fastText
pip3 install .
- pythonのパッケージとしてimportできるか確認します。以下のコマンドを実行してエラーがでなければOKです。
python3
import fasttext
exit()
- docker exportでここまで作業したコンテナを保存しておきます。次回以降、docker importでここから作業を継続できます。
docker export {イメージID} > {ファイル名}.tar
機械学習系パッケージをインストール
定番のパッケージをインストールしておきます。
- 以下のコマンドを実行します。
pip3 install numpy pandas matplotlib scikit-learn
日本語処理系パッケージをインストール
日本語処理に必要なパッケージをインストールしておきます。
辞書は必須ではないので飛ばしてもOKです。
- 以下のコマンドを実行します。
rpm -ivh http://packages.groonga.org/centos/groonga-release-1.1.0-1.noarch.rpm
yum -y makecache
yum -y install mecab mecab-ipadic
yum -y install --nogpgcheck mecab-devel
pip3 install mecab-python3 neologdn emoji
- 辞書をインストール (diffutils patch which file opensslはインストールスクリプトに必要なためインストールします。)
yum install -y diffutils patch which file openssl
cd /usr/local/src
git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
cd mecab-ipadic-neologd
./bin/install-mecab-ipadic-neologd -n -y
環境のエクスポート
今回は個人での利用かつ、常に新しいパッケージバージョンを使用したいのでここまでの作業Dockerfileにし環境をエクスポートします。
※ちなみにここまでの状態でdocker exportしたファイルは、1.7GBでした。
- Dockerfile作成時のポイント
- cdの代わりにWORKDIRを使う(Dockerfileではcdは使えない)
- コマンドはbashで実行させるようにする。
- 辞書はコメントアウトしている。(ビルドに時間がかかるので)
Dockerfile
FROM centos:centos8
SHELL ["/bin/bash", "-c"]
#Python Install
RUN dnf -y install python36
#fastText Build
RUN yum install -y git make gcc gcc-c++
RUN yum install -y python36-devel
WORKDIR /usr/local/src
RUN git clone https://github.com/facebookresearch/fastText.git
WORKDIR /usr/local/src/fastText
RUN pip3 install .
#Install Python Package
RUN pip3 install numpy pandas matplotlib scikit-learn
RUN rpm -ivh http://packages.groonga.org/centos/groonga-release-1.1.0-1.noarch.rpm
RUN yum -y makecache
RUN yum -y install --nogpgcheck mecab mecab-ipadic mecab-devel
RUN pip3 install mecab-python3 neologdn emoji
#Install Mecab Dictionary
# RUN yum install -y diffutils patch which file openssl
#
# WORKDIR /usr/local/src
# RUN git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
# WORKDIR /usr/local/src/mecab-ipadic-neologd
# RUN ./bin/install-mecab-ipadic-neologd -n -y
ビルドと起動確認
- Dockerfileを使いビルドします。
docker build -t fasttext/centos8:v1.0 .
- 以下コマンドで起動できることを確認します。
docker run -it -v /c/temp/data:/data --rm fasttext/centos8:v1.0 /bin/bash
まとめ
以下のステップでノートPCにPythonの機械学習環境をコンテナで構築できました。
- ベースになるコンテナイメージを起動
- 少しずつ必要なものをインストールし検証
- コンテナイメージをエクスポート
リモートワークでは社内VPNに常時接続できず、開発サーバでの開発作業が困難な状況でしたが本環境により解決できました。
ノートPCでは学習に時間がかかるため、"学習にリソースが専有される"、"シャットダウンできない" といった問題がありますが、開発用サーバにも事前に同じコンテナを仕込んでおけば、「ノートPCで少ないエポックで動作確認→開発用サーバでエポックを増やして学習」という手順を踏むことで解決できます。
ソースコードのコミットをフックして自動的に開発用サーバでの学習を走らせることも可能です。そのあたりは別途記事をまとめようと思います。