Sketch-Guided Text-to-Image Diffusion Models
Sketch-Guided Text-to-Image Diffusion Models
概要
本論文では、スケッチとテキストプロンプトを用いて、テキストから画像への拡散モデルをガイドする新しい手法を提案する。提案手法は、推論時に事前学習済みのテキストから画像への拡散モデルを別ドメイン(例えばスケッチ)からの空間マップでガイドする。従来の手法と異なり、専用のモデルやエンコーダーを新たに学習させる必要がない。
研究の背景
テキストから画像への生成モデルは、テキストプロンプトから高品質な画像を生成する能力を持つ。しかし、生成される画像の空間的なプロパティを制御するための直感的な操作手段に乏しい。特に、スケッチなどの空間マップで推論をガイドすることは、未解決の課題であった。
新規性
- Latent Edge Predictor(LGP)の導入: ノイズのある画像のLatent特徴を空間マップにマッピングする小規模な多層パーセプトロン(MLP)を使用する。LGPは数千枚の画像でのみ学習され、微調整を通じて中間画像を空間マップと一致させる。
- 汎用性と柔軟性: LGPはアウトオブドメインのスケッチにも対応可能で、自由な手描きスタイルのスケッチも処理できる。
方法
- 入力準備: スケッチと対応するテキストプロンプトを入力とし、事前学習済みの拡散モデルの推論プロセスをガイド。
- Latent Edge Predictorの訓練: 拡散モデルのコアネットワークから抽出されたLatent特徴を使用し、ノイズのある画像のLatent特徴を空間エッジマップにマッピング。
- 反復プロセス: ガイドされた推論プロセス中に、エッジ予測を行い、エッジマップとの類似度を計算し、勾配を逆伝播させて中間画像を調整。
Latent Edge Predictor(潜在エッジ予測器)は、テキストに基づいて画像を生成する際に、その画像のエッジ(輪郭や境界線)をどのように描くかをコントロールするもの
このシステムの役割は、ユーザーが提供したスケッチ(手書きの図や線画など)に基づいて、画像のエッジをより正確に生成すること
- スケッチの使用:ユーザーが提供したスケッチ(線画)を元に、画像のエッジ(輪郭)をどう描くかを学習。
- 画像生成の調整:テキストから画像を生成する際、このスケッチに沿ってエッジを形成するようにモデルを調整。
- 結果の改善:テキストだけでなく、ユーザーが提供したスケッチも考慮して、よりユーザーの意図に合った画像を生成できるようになる。
実験と応用
注目すべき点
- 高いエッジ忠実度: エッジガイダンススケールβを調整することで、生成される画像のリアリズムとエッジの一致度のバランスを取ることができる。
- 少数の訓練データでの高効率訓練: Latentエッジ予測器は数千枚の画像での訓練で済み、単一GPUで1時間程度で学習可能。
- 多様な応用: 提案手法は、スケッチガイドの他にも、サリエンシーガイド、背景のインペインティングなどの空間的にガイドされたテキストから画像へのタスクにも適用可能。
結論
提案手法は、スケッチとテキストプロンプトを用いて、事前学習済みのテキストから画像への拡散モデルをガイドする新しいアプローチを示す。高い汎用性と効率的な学習プロセスにより、さまざまなドメインやスタイルのスケッチに対応でき、幅広い応用が期待される。