この記事について
最近初めてubuntuを触り始め、わからないことを調べたはいいものの記憶に残らないため、備忘録として残します。なお、著者のubuntuとlinuxの使用歴は0で、dockerの使用目的は深層学習を仮想環境で行いために利用しています。
linuxコマンドのファイル操作について
touch : ファイルを作る
ファイルを作成する
touch new_file.txt
cp : ファイルをコピーする
ファイルのコピー
cp file.txt new_file.txt
mv : ファイルの移動
ファイル名の変更
mv file.txt new_file.txt
ディレクトリ名の変更
mv FILE/ NEW_FILE/
ファイルの削除
ファイルの削除
rm file.txt
ディレクトリの削除
rm -r FILE/
find : 指定ファイルを見つける
指定ファイル(100_G.pth)以外の(_G.pth)の削除方法(確認のみ)
find ./ -name "*_G.pth" ! -name "100_G.pth" | xargs echo
Linuxコマンドは"|"をいれることで複数の操作を行うことができる
上記の削除用(※sudoが必要な場合は、rmの前に入れる)
find ./ -name "*_G.pth" ! -name "100_G.pth" | xargs rm
UbuntuでのDockerについて
以下例で示すために、
- コンテナ名:torch112
- imageファイル:pytorch/pytorch:1.12.1-cuda11.3-cudnn8-devel
- マウントするローカルディレクトリ:/data/torch1.12
- docker内での上記ディレクトリと対応する名前:data
とする
docker pull & runコマンド
- --shm-size : 使用する共有メモリ。デフォルト(64mb?)では足りないことが多いため、2gとする
- -v : "マウントするローカルディレクトリ":/"docker内で対応するディレクトリ名"
- --gpus : allや0, 1等
- -it : imageファイル
Dockerのimageをpull & 起動
docker run --shm-size=2g --name torch112 -v /data/torch1.12:/data --gpus all -it pytorch/pytorch:1.12.1-cuda11.3-cudnn8-devel
稼働状況について
dockerの稼働状況確認
docker ps -a #-aをとると起動中のコンテナのみ表示される
imageの一覧表示
docker images ls
コンテナの起動や停止
作成したimageを起動する
docker start torch112
起動したimageの中に入る
docker exec -it torch112 bash
コンテナ停止
docker stop torch112
コンテナの削除
作成したコンテナの削除
docker rm -f torch112
Nvidia-smiでGPU温度やメモリ使用率を監視する
nvidia-smi実行
nvidia-smi
nvidia-smi実行(一定時間で更新)
タスクマネージャのように表示を更新させる方法
nvidia-smi -l
なお、GPU Memory Junction Temperatureはubuntuからは監視することができない模様。