More than 1 year has passed since last update.

Improved Denoising Diffusion Probabilistic Modelsの個人的理解用メモ

Last updated at 2023-05-07Posted at 2023-04-23

論文情報

DDPMにいくつか修正を加えて、優れた対数尤度を得られるようにした。

真の分布$q$で、ノイズなしの画像$x_0$とtステップ目のノイズ入り画像$x_t$があった時の、1stepノイズを除去した$x_{t-1}$の分布。

q(x_{t-1}|x_t, x_0) = \mathcal{N}(x_{t-1};\tilde{\mu}(x_t, x_0), \tilde{\beta}_tI)

学習した分布$p$で、tステップ目のノイズ入り画像$x_t$があった時の、1stepノイズを除去した$x_{t-1}$の分布。

p_\theta(x_{t-1}|x_t, x_0) := \mathcal{N}(x_{t-1};\mu_\theta(x_t, t), \Sigma_\theta(x_t, t))

真の分布$q(x_{t-1}|x_t, x_0)$と学習した分布$p_\theta(x_{t-1}|x_t, x_0)$の分布間距離（KL）でlossにする。

しかし、分散直接学習はうまくいかないので、$\upsilon$を予測することで、間接的に分散を予測する。

\Sigma_\theta(x_t, t) = exp(\upsilon log\beta_t + (1-\upsilon) log\tilde{\beta}_t)

線形だと、必要以上に早くデータにノイズを乗せてしまうので、ゆっくりノイズが乗るようにした。

tを一様分布からサンプリングすると、lossのノイズが大きくなってしまうことがわかった。そこで、lossの値の大きさを頼りに、重要度サンプリングを行うことで、ノイズが大きく乗らないようにした。

内容に問題がある場合も責任は持てません。
コメントをいただければ修正します。