本月初、中国の清華大学がLCM(Latent Consistency Models)という新しい画像生成モデルを発表しました。
Huggingfaceで話題になり、わずか一週間で数十万回ダウンロードされてます。
特徴としは従来の画像生成モデル(Stable Diffusionなど)より処理速度が非常に速くて、リアルタイムで画像を生成することができます。
一般的な画像生成モデル(拡散モデル)は、トレーニングデータにノイズを加えた後、その処理を逆転する方法で画像を生成します。この逆転の作業は、多段階のsamplingプロセスで行われるため、計算量が多く、生成速度も遅いです(step数で言うと、たとえばStable Diffusionならデフォルトで50ステップです)。LCMは低ノイズの目標に対して効率的に検出する計算方法を追加されてますので、step数が非常に少なくてもうまく画像を生成できます。LCMを追加したモデル(LCM-LoRA)は、わずか4ステップで画像を生成することができます。
先週私も試してみました。同じプロンプト(寝てる犬)に対して、stable diffusionは13秒かかりましたが、LCMではたった1秒でできました。処理時間は確かに10倍くらい速くなりましたね。(しかも画像のクオリティもあまり落ちてないです。)
LCMについて