#はじめに
一般社団法人データサイエンティスト協会が、**構造化データの加工を実践的に学べる無料の学習環境「データサイエンス100本ノック(構造化データ加工編)」**をGitHubに公開しました。
本記事は、初学者の方でも無料の学習環境を構築できるように、導入手順の詳細を記載しました。
(構築する実行環境は下図になります。)
#前提条件(Windows10)
-
Docker Desktop for Windows
※起動しない場合は、Hyper-Vが「無効」になっている可能性があるので「有効」に設定。 -
Git for Windows
※インストール時のデフォルト設定である改行コード変更を「無効」に設定。
※本記事のコマンドはPowerShellで実行・検証済。
> git config --global core.autocrlf input
#環境構築
学習環境用のディレクトリ(今回はdss)を作成し、100本ノックのリポジトリをクローンする。
その後、100本ノックのディレクトリ内に移動し、docker-compose
コマンドを使ってコンテナを作成する。(10分前後の時間がかかる。)
※環境構築中に警告のポップアップが表示される場合、DockerのローカルPCに対するアクセス権限がない可能性があるため**「Share it」**を選択してアクセス権限を付与する。
※上記の方法で起動できない場合、DockerのSettingsでファイル共有が設定されているかを確認する。
> mkdir dss
> cd dss
> git clone https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess.git
> cd 100knocks-preprocess
> docker-compose up -d --build
起動済みのコンテナを確認し、**「dss-notebook」と「dss-postgres」**の出力を確認できれば環境構築が成功。
> docker ps
CONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES
b35f99d4148a dss-notebook "tini -g -- start-no…" 23 seconds ago Up 22 seconds 0.0.0.0:8888->8888/tcp dss-notebook
3cb559c7f66d dss-postgres "docker-entrypoint.s…" 27 seconds ago Up 26 seconds 0.0.0.0:5432->5432/tcp dss-postgres
#使い方
ブラウザで下記のURLにアクセスすると、構築したJupyterの環境にアクセスできる。
http://localhost:8888
work
ディレクトリ配下に、構造化データ加工の演習問題の.ipynbファイルがある。
必要ライブラリのインポートや加工前のデータ取得は、最初のセルに記述済み。
演習問題に適した処理を、空欄のセルに入力して実行し、学習を進める。
演習問題の解答は、work/answer
ディレクトリ内に.ipynbファイルがある。
そのため、演習問題のファイルで回答した処理の正否を確認しながら作業可能。
#学習環境の停止・起動
下記のコマンドで、構築した環境を停止可能。
> docker-compose stop
また、2回目以降に起動する場合は、下記のコマンドで起動可能。
> docker-compose start
補足事項
構築した環境のレスポンスが遅い場合
Docker Desktop for WindowsのSettingsでResourcesのMemory値を変更してください。
推奨は、4.00GB以上です。
8888ポートが使用されている場合
もし、ローカルホストの8888ポートを他の開発環境(LAMPなど)で利用している場合は、docker-compose.ymlを下記のように変更(notebookのportsの値を変更)することで対応可能。
notebook:
ports:
- "888:8888"
上記の場合、下記のURLでアクセス可能になる。
http://localhost:888
まとめ
Windows10環境における、データサイエンス100本ノック(構造化データ加工編)の環境構築手順を記載いたしました。
上記の手順で不明点や疑問点等がありましたら、コメントいただけますと幸いです。