1. 概要
DALL・EやStable Diffusionなどの高解像度の画像生成モデルでは拡散モデル(diffusion model)を使用するため、分類器が存在せず(Classifier-free)、制約条件などをガイド情報として組み込むことで、生成する画像の特定の属性や特徴を指定して生成モデルをコントロールすることができる。問題点として、推論時の計算コストが高くなることが挙げられる。提案手法では、分類器を使用しないガイド付きの拡散モデルを高速化する手法を提案している。
2. 新規性
これまでの手法では、条件付きのモデルと非条件付きのモデルの2つの拡散モデルを推論時に数十~数百回評価して画像生成をする必要があったため時間的制約が大きかった。提案手法では、条件をガイド情報に組み込み、ガイド情報を蒸留(distillation)して圧縮しつつ、拡散モデル自体も蒸留することでコンパクトなモデルを作成している。
3. 実現方法
事前学習済みの分類器不使用型のガイド付き拡散モデルを入力として、1)出力結果が条件付きと非条件付きのモデルの組み合わせで一致するようにモデルを学習し、2)それをより少ないサンプリングステップで動作するように拡散モデルを逐次的に蒸留していく。
4. 結果
ImageNet(64x64)やCIFAR-10データセットにおいて、4つのサンプリングステップだけで従来手法と同クオリティの画像を生成でき、サンプリング速度を最大256倍高速化した。Stable Diffusionなどの潜在空間で学習された拡散モデルと比べて、10倍高速化した。
last updates: June 30 2023