一番簡単な使い方
-
dvc.yaml
を編集 -
dvc repro
で再生成 -
dvc push
でリモートにアップロード -
dvc pull
でリモートのダウンロード
よく使う順
- repro <プロセス名>
- dvc.yamlに登録したデータ生成プロセスを実行する。ただし、生成プロセスが依存するソースのハッシュに変化がなければ無視される
-
--dry
で実行はせず、何が実行される予定かの確認だけできる。まずはこれを付けて使うと便利(dvc statusも似た感じ)
- push
- リモートストレージにdvcのキャッシュを送る。バックアップのほか、他ユーザが自分の生成したデータをダウンロードできるようになる
- pull
- リモートストレージから他ユーザーがpushした結果を取得する
- dag
- プロセスの可視化。見づらい
- checkout
- 現在のgit commitの状態で生成されていたデータに更新する
- add
- 外部データの追加。ハッシュ値を計算して.dvcとして保存する
- remove
- addしたデータを削除・変更したい場合。.dvcと.gitignoreも変更する
- gc
- ローカルやリモートのキャッシュを削除する
- init
- 最初に一回だけ行う。.dvcを生成する
- remote
-
dvc remote add -d <remote_name> /path/to/remote
でリモートストレージを指定する。(-dでデフォルトに指定)。.dvc/configに保存される - パスだけでなく、SSH/S3など多様な保存先が指定可能
-