論文情報
Improved Denoising Diffusion Probabilistic Models, Alex Nicholら, 2021
論文の立ち位置
DDPMにいくつか修正を加えて、優れた対数尤度を得られるようにした。
簡単な説明
- 分散も学習するようにした。
- ノイズスケジュールを線形から、コサインにした。
- time stepのサンプリングを一様分布から、重要度サンプリングにした。
説明
分散の学習の話
真の分布$q$で、ノイズなしの画像$x_0$とtステップ目のノイズ入り画像$x_t$があった時の、1stepノイズを除去した$x_{t-1}$の分布。
q(x_{t-1}|x_t, x_0) = \mathcal{N}(x_{t-1};\tilde{\mu}(x_t, x_0), \tilde{\beta}_tI)
学習した分布$p$で、tステップ目のノイズ入り画像$x_t$があった時の、1stepノイズを除去した$x_{t-1}$の分布。
p_\theta(x_{t-1}|x_t, x_0) := \mathcal{N}(x_{t-1};\mu_\theta(x_t, t), \Sigma_\theta(x_t, t))
真の分布$q(x_{t-1}|x_t, x_0)$と学習した分布$p_\theta(x_{t-1}|x_t, x_0)$の分布間距離(KL)でlossにする。
しかし、分散直接学習はうまくいかないので、$\upsilon$を予測することで、間接的に分散を予測する。
\Sigma_\theta(x_t, t) = exp(\upsilon log\beta_t + (1-\upsilon) log\tilde{\beta}_t)
ノイズスケジュールの話
線形だと、必要以上に早くデータにノイズを乗せてしまうので、ゆっくりノイズが乗るようにした。
tのサンプリングの話
tを一様分布からサンプリングすると、lossのノイズが大きくなってしまうことがわかった。そこで、lossの値の大きさを頼りに、重要度サンプリングを行うことで、ノイズが大きく乗らないようにした。
その他
内容に問題がある場合も責任は持てません。
コメントをいただければ修正します。