Depth Anything (AI)を使って深度付き動画を作成する dav2video

Last updated at 2025-04-17Posted at 2025-02-11

初めに

dav2videoは1枚の静止画から深度を推定するDepth Anything V2を使って通常の2D動画へ深度画像を追加するPython用のツールです。
作成した深度付き動画は次のアプリで立体映像として視聴できます。

視聴用アプリ	対応機種
Depth Video Player VR	Windows
アマレコVR	Meta Quest

深度付き動画例（デプス動画）

できること

通常の2D動画から深度付きの動画を作成する
RIFEを使って30fpsの動画を60fpsや120fpsにする

最終的にはVRで立体映像として視聴するので 30fpsだとカクカク感が2D映像のときより目立ってしまいます。そこでECCV2022-RIFEを使ってフレーム補完し、60fpsや120fpsの動画として仕上げます。

動作条件

Windows10 / 11 64bit
4GB以上のnVIDIA製ビデオカード
Python 3.11.4

処理速度

FullHD 30fps 1分の動画を処理するのにかかる時間は次の通りです。

設定	GTX1050Ti 4GB	GTX1080 8GB	RTX4090 24GB	備考
fast	137秒	64秒	34秒	速度優先スモールモデル
midle	44分	12分	104秒	標準設定ベースモデル
slow	メモリ不足約2時間	37分	5分	品質重視ラージモデルフレーム補完あり GTX1050Tiで使うには

ダウンロード

dav2video1_1_1.zip
解凍してできる 'dav2video'フォルダへ以下をコピーしてください。

Depth-Anything-V2 一式
https://github.com/DepthAnything/Depth-Anything-V2
- (1) 'Depth-Anything-V2-main'フォルダ内のファイル全部
- 同ページのPre-trained Modelsの項にある学習データ 3つ
  'checkpoints' フォルダへコピーしてください
  - (2) depth_anything_v2_vits.pth
  - (3) depth_anything_v2_vitb.pth
  - (4) depth_anything_v2_vitl.pth
ECCV2022-RIFE 一式
https://github.com/megvii-research/ECCV2022-RIFE
- (5) 'ECCV2022-RIFE-main'フォルダ内のファイル全部
- 同ページのInstallationの項にある学習データ
  - (6) 'train_log'フォルダ内のファイル全部
    https://drive.google.com/file/d/1APIzVeI-4ZZCEuIRE1m6WYfSCaOsi_7_/view?usp=sharing
ffmpeg
https://github.com/GyanD/codexffmpeg/releases/tag/2020-12-20-git-ab6a56773f
ffmpeg-2020-12-20-git-ab6a56773f-full_build.zipを解凍してできる
- (7) ffmpeg.exe
- (8) ffprobe.exe

Pythonのインストール

このツールはPython用のスクリプトになっています。Pythonを公式サイトからダウンロードおよびインストールしてください。

Windows installer (64-bit) (python-3.11.4-amd64.exe)

インストール画面ではカスタマイズを選択し Pythonへパスを通すオプションをONにしてください。

インストールが終わったらPCを再起動します（再起動しないとパス設定が有効にならない）。

Windows PowerShellを起動してPythonが使えることを確認します。Pythonから抜けるには[Ctrl] + [Z]。

AppStoreのPythonのページが表示されるようならパスの設定ができていません。
インストーラーで修復か再インストールしてください。

Pythonで必要なモジュール

requirements.txt

ffmpeg-python==0.2.0
keyboard==0.13.5
numpy==1.26.4
tqdm==4.66.1
opencv-contrib-python==4.8.0.76
Pillow==9.3.0

同梱のmodule_install.batで一括インストールできます。

また、PyTorchのCUDA 12版が必要です。CPU版や CUDA 11版では動かない場合があります。
動かない場合は次の様に上書きインストールしてください。

pip install --upgrade --force-reinstall torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

使い方

以下のバッチファイルへ動画をD&Dしてください。
カレントフォルダ（dav2videoのフォルダ）へ深度付き動画が作成されます。

処理中は[Shift]を押しながら[S]キーで処理中の画像を表示します。画像ウインドウを閉じれば処理を再開します。
[Shift]＋[ESC]で処理を途中で終了します。音声のコピー処理を行うので終了まで少し時間がかかります。

バッチファイル	モデル	処理解像度	フレーム補完	備考
drop_here_fast.bat	vits	x1	無し	スモールモデルを使った処理速度優先の設定
drop_here_midle.bat	vitb	x2	無し	ベースモデルを使って処理解像度を上げた標準設定
drop_here_slow.bat	vitl	x2	-60	ラージモデルを使ってさらに動画を60fpsにする品質重視設定
drop_here_slow_4GB.bat	vitl	x2	無し	4GB用の高品質設定 2倍速で処理する
drop_here_60fps.bat	-	-	-60	フレーム補完で60fpsの動画を作成する深度推定は行わない
drop_here_120fps.bat	-	-	-120	フレーム補完で120fpsの動画を作成する深度推定は行わない

numpyでエラーが起こる場合はもう一度module_install.batを実行してください。
PyTorchのインストールによりnumpyのバージョンが変わってしまいエラーが起こります。

コマンドラインオプション

書式

python dav2video.py [input_path] [opions]

input_path

入力動画のフルパス

options

オプション	説明
-d --output_dir	処理結果を保存するフォルダを指定する省略した場合はカレントフォルダへ出力最後の'￥'または'/'はあってもなくてもいい例 -d="C:/video"
-m --model	深度推定に使うモデルを選択する省略した場合は vitb vits スモールモデル早いけど精度が悪いフレーム毎のばらつきが多いお勧めしない vitb ベースモデル精度が高いフレーム毎のばらつきが少ない bitl ラージモデル最も精度が高い
-t --depth_scale	深度推定処理解像度 518x518を基本に何倍にするかを指定します大きいほど深度推定の精度が上がります省略した場合は 2倍 1倍:518x518 2倍:1036x1036 3倍:1554x1554
-s --slow_factor	スローファクターフレーム数をn倍にし且つfpsもn倍にする省略した場合は 1倍 1,2,4,8,16... 2のN乗のみ可マイナスにすると目標fpsに合わせて倍率を自動設定する例 -s -120 なら120fpsに近い倍率になるよう自動設定される
-c --crop	クロップ画像の端を切り取ります(画像サイズが小さくなる) 左右上下（右と下はマイナスにすると幅と高さと解釈します）例 -c 100 -320 200 -240 左上(100,200)から320x240の画像を切り出す
-k --blank	ブランク深度推定処理のときだけ端を切り取ります左右上下（右と下はマイナスにすると幅と高さと解釈します）クロップと異なり作成される動画の画像サイズはそのままです。例 -k 4 4 4 4 左右上下それぞれ4画素切り取って深度推定処理を行います。
-i --input_option	入力ストリームのffmpeg オプション例 -i="-ss 1:30:00 -to 2:10:00" 処理する時間を指定する
-o --output_options	出力ストリームのffmpeg オプション例 -o="-c:v h264_nvenc -cq 26" nvencを使う
-n --no_suffix	作成する動画のファイル名に接尾語を付けない
--log	ログファイルを作成する
-r --rife_only	フレーム補完のみ行います深度推定は無効になります
-a --analyze	解析ファイルを作成する
-b --buffering	バッファリング画像をビデオメモリへ貯め込んで処理します。これにより突発的な深度値の変化に対応できずつぶれてしまうケースを改善します。（将来どうなるか分かるので対処できる）また、30フレーム以下の場合はレンジを常に5％多くなるよう設定します。バッファリングはビデオメモリを大量に消費します。ビデオメモリが足りない状態で使うとものすごく遅くなりますので注意してください。省略した場合は60フレームで8GBのビデオカードを想定しています。 8GB未満の場合はバッファ数を下記の通り下げてください。 4GB -b 3:ほとんどバッファリングできないので効果は無い 6GB -b 30:効果中レンジを5％多めにとる 8GB -b 60から90:効果大レンジを多めにとることなく効率よく殆ど対処できる
-x --frame_skip	フレームスキップ（倍速）深度推定をnフレーム毎に行い、飛ばしたフレームはRIFEで補完します。深度推定よりRIFEの方が早い場合に処理時間を短縮できます。省略した場合は 1倍（スキップしない） 1,2,4,8,16... 2のN乗のみ可マイナスにするとfpsに合わせて倍率を自動設定する例 -x 4 4倍を指定すると 4フレーム毎に深度推定し間の3フレームを補完します。例 -x -30 30fps以下の動画の場合 1倍（スキップしない）になります。 60fpsの動画の場合 2倍で動作します。処理時間を懸念してクォリティを落とすより、クォリティを上げて倍速を使った方が同じ処理時間で良い結果が得られます。ただしデメリットとして動画の画像と補完した深度画像の位置が僅かにズレる場合があります。位置がズレると立体映像として視聴した際に、被写体の輪郭に背景が少し表示されたり、輪郭の段差が目立つようになります。2倍は殆どズレない、4倍からよく見るとズレを認識できる場面がある。

更新履歴

日付	バージョン	内容
2025.2.11	1.0.0 ダウンロード	- 初版
2025.2.20	1.0.3 ダウンロード	- 深度推定後の正規化を変更 - 解析オプション追加(-a) - フレーム補完のみのオプション追加(-r)
2025.4.17	1.1.1 ダウンロード	- バッファリングによりレンジオーバーを改善 - バッファリングオプション追加(-b) - 倍速オプション追加(-x) - --rife_ontyオプションを --rife_onlyに修正

ヒント

処理解像度が精度に大きく影響する

とにかく精度を上げたい場合はベースモデルかラージモデルで処理解像度オプション(-t)を上げること
SD動画など低解像度の場合も画像サイズ以上の処理解像度にすると顕著に精度が上がります。

VR動画の一部を切り出して無理やり2D動画として扱う（クロップ）

クロップオプション(-c)を使ってVR動画の一部を切り出して2D動画として扱うことができます。

4096x2048のVR動画から左側の1350x1800の範囲を切り取って無理やり2D動画として扱う

python dav2video.py input_vr.mp4 -c 350 -1350 100 -1800

古いアナログ映像を扱う（ブランク）

画面の端にアナログ映像特有の不安定な箇所があると深度推定が非常に不安定になります。
クロップで切り落としてもいいですが画像サイズが変わってしまうので、
画像サイズが変わらないブランクオプション(-k)を使って下さい。
ブランクは深度推定処理を行う時だけ一時的にクロップし、深度推定以外は元の画像を使います。
デジタル映像の場合もブランクで安定する場合があります。

古い映像の端を4画素ブランクして安定させる

python dav2video.py input_analog.mp4 -k 4 4 4 4

黒帯付の動画

アナログ映像と同様、黒帯も深度推定に影響を与えるので、なるべくブランクして黒帯を取り除いてください。

出力ファイルと同じ名前のファイルがある場合

ファイル名の最後に番号を付けて保存されます。

動画の一部を処理する（処理する時間を指定する）

入力ストリームオプションでffmpegコマンドを使います。

1時間30分から2時間10分までを処理する場合

python dav2video.py input.mp4 -i="-ss 1:30:00 -to 2:10:00"

ハードウエアエンコーダーnvencを使う

出力ストリームオプションでffmpegコマンドを使ってエンコーダーを指定できます。

h264 画質26の場合

python dav2video.py input.mp4 -o="-c:v h264_nvenc -cq 26"

h265 画質30の場合

python dav2video.py input.mp4 -o="-c:v hevc_nvenc -g 30 -cq 30"

GeForce GTX1050Ti 4GBで使うには

深度推定のみならラージモデルもギリギリ動作する。
しかし、一緒にフレーム補完までするとビデオメモリ不足で動かない。
最初に深度付き動画を作って、出来上がった深度付き動画をフレーム補完のみオプション(-r --rife_onty)を付けてもう一度処理することで深度付きの滑らかな動画を作成できる（drop_here_120fps.bat へドロップしてもOK）。

GeForce GTX1050Ti 4GBの場合

# 1回目 深度付き動画を作る （フレーム補完はメモリ不足で一緒にできない）
python dav2video.py input.mp4 -m vitl -t 2

# 2回目 フレーム補完のみを行う （--rife_ontyで深度推定を無効にする）
python dav2video.py "1回目で作った動画" --rife_onty -s -120

ちなみに FHD 30fps 1分の動画を処理するのに 1時間53分
そのあとフレーム補完で31分、計2時間24分かかった。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

Depth Anything (AI)を使って 深度付き動画を作成する dav2video

初めに