The Chosen One: Consistent Characters in Text-to-Image Diffusion Models
SIGGRPAH 2024
公式ではないけど、コードはあるみたい。
概要
この論文では、テキストプロンプトのみを入力として、一貫したキャラクターを自動的に生成する方法を提案している。従来の方法は、ターゲットキャラクターの複数の既存画像を使用したり、手作業で行うプロセスに依存していた。提案手法は、テキストプロンプトに基づいて生成された画像の中から共通のアイデンティティを持つ画像セットを特定し、そのセットから一貫したアイデンティティを抽出する反復プロセスを導入している。
研究の背景
テキストから画像を生成するモデルは、創造的なビジュアルコンテンツの生成に大きな可能性をもたらしている。しかし、生成されたキャラクターの一貫性を維持することは、多くの現実世界のアプリケーション(ストーリーの視覚化、ゲーム開発、広告デザインなど)において重要でありながら困難である。既存の方法では、ターゲットキャラクターの複数の画像を使用したり、手作業で画像をフィルタリングする必要があり、効率が悪かった。
新規性
- 完全自動化: テキストプロンプトのみを入力とし、一貫したキャラクターを生成する完全自動化された方法を提案。
- アイデンティティの反復抽出: 生成された画像セットから一貫したアイデンティティを抽出し、それを用いて次の画像セットを生成する反復プロセスを導入。
- 定量的および定性的評価: 提案手法は、既存の方法と比較してプロンプトの整合性とアイデンティティの一貫性のバランスをより良く保つことを示す。
モデル構造のイメージは、この画像が一番分かりやすい
方法
- 画像生成: テキストプロンプトに基づいて多数の画像を生成。
- 特徴抽出とクラスタリング: 生成された画像を高次元の特徴空間に埋め込み、クラスタリングを行う。
- アイデンティティ抽出: 最もコヒーレントなクラスタから共通のアイデンティティを抽出。
- 反復プロセス: 抽出されたアイデンティティを使用して次の画像セットを生成し、一貫したキャラクターが得られるまでプロセスを繰り返す。
実験と応用
- ストーリーの視覚化: 一貫したキャラクターを用いたストーリーの各シーンの視覚化。
- ローカルイメージ編集: 提案手法を使用して、指定された背景画像に一貫したキャラクターを挿入。
- ポーズ制御: ControlNetを使用して追加のポーズ制御を行う。
注目すべき点
- 高いアイデンティティ一貫性: 提案手法は、異なるコンテキストでも同一キャラクターを一貫して生成。
- プロンプト整合性の向上: テキストプロンプトと生成された画像の間の整合性を保ちながら、一貫したアイデンティティを維持。
- ユーザスタディによる評価: 提案手法がユーザ視点からも高い評価を受けていることを示す。
文章から、ストーリー仕立ての4コマ漫画みたいに出力できるのが、すごい!
結論
この論文では、テキストプロンプトのみを入力として、一貫したキャラクターを生成する完全自動化された方法を提案した。提案手法は、現行のアプローチと比較して、アイデンティティの一貫性とプロンプト整合性のバランスをより良く保つことができる。これにより、ストーリーテリング、ゲーム開発、広告デザインなどの分野での応用が期待される。