はじめに
SQLの学習のために、**「データサイエンス100本ノック(構造化データ加工編)」**を教材として使用しました。
最初のDockerでの環境構築で躓いたので、備忘録として残します。
前提条件
- Windows11
- 管理者権限でのコマンド実行が可能
- インターネット接続
手順1: 必要なソフトウェアのインストール
Git のインストール
- Git公式サイトからWindows版をダウンロード
- インストーラーを実行し、デフォルト設定でインストール
Docker Desktop のインストール
- Docker Desktop公式サイトにアクセス
- **「Windows版のダウンロード - AMD64」**を選択
- 一般的なIntelやAMDのCPUの場合はAMD64版を選択
- ARM64版はSurface Pro XなどのARM系プロセッサー向け
- インストール完了後、必ずWindowsを再起動
手順2: リポジトリのクローン
PowerShellまたはコマンドプロンプトを開き、以下を実行:
git clone https://github.com/The-Japan-DataScientist-Society/100knocks-preprocess.git
cd 100knocks-preprocess
手順3: Docker環境の起動
docker-compose up -d --build
よくあるトラブルと解決方法
トラブル1: docker info
が応答しない
症状: docker info
コマンドが長時間応答しない
解決方法:
- Docker Desktopを完全に停止・再起動
- WSL2の再起動
wsl --shutdown
- Docker Desktopを再起動
トラブル2: WSL distroエラー
症状: "WSL distro terminated abruptly"エラーが表示される
解決方法:
- WSLの登録を解除
wsl --unregister docker-desktop
wsl --unregister docker-desktop-data
- Docker Desktopを再起動
- 自動的に新しいWSL環境が作成される
トラブル3: docker-composeが完了しない
症状: docker-compose up
が長時間応答しない
解決方法:
- Ctrl+Cで中止
- クリーンアップを実行
docker-compose down
docker system prune -f
- 再度実行
docker-compose up --build
トラブル4: Windows機能の確認
必要な機能が有効になっているか確認:
- Windows+R →
optionalfeatures
- 以下にチェックが入っているか確認:
- ✅ Linux用Windowsサブシステム
- ✅ 仮想マシンプラットフォーム
手順4: 環境の確認
Docker環境の確認
# コンテナの起動状況を確認
docker ps
# WSLの状況を確認
wsl --list --verbose
正常に起動していれば以下が表示されます:
NAME STATE VERSION
* docker-desktop Running 2
Jupyter Notebookへのアクセス
ブラウザで以下にアクセス:
http://localhost:8888
データサイエンス100本ノックを始める
実践例: 最初の問題を解いてみる
S-001: レシート明細データの確認
%%sql
SELECT * FROM receipt LIMIT 10;
まとめ
Docker環境でのデータサイエンス100本ノック構築は、初期設定で躓くことがありますが、一度構築できれば:
- 再現性の高い環境で学習できる
- 実務に近い環境で練習できる
という大きなメリットがあります。
トラブルに遭遇した場合は、本記事の解決方法を参考に、一つずつ確認していけば必ず解決できます。データサイエンス学習の第一歩として、ぜひ挑戦してみてください!
参考リンク
この記事が皆さんのデータサイエンス学習の助けになれば幸いです!
質問や改善点があれば、コメントでお知らせください。