DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
CVPR 2023
2022年に公開された?後すでに、被引用数が2024年7月時点で1500件を超えている凄まじい論文
概要
DreamBoothは、少数の画像から特定の主体を識別し、その主体をさまざまな文脈で高品質に再現するためのテキスト・画像拡散モデルの微調整手法。具体的には、事前学習済みのモデルを微調整し、ユニークな識別子を使って新しい画像を生成する。
研究の背景
近年、ImagenやDALL-E2などの大規模なテキストから画像を生成するモデルが開発され、テキストプロンプトから高品質で多様な画像を生成する能力を持つようになった。しかし、これらのモデルは、特定の主体の外観を異なる文脈で再現するのが難しいという課題があった。この問題を解決するために、DreamBoothは、テキスト・画像拡散モデルを主体駆動型生成にパーソナライズする新しいアプローチを提案する。
新規性
- 少数画像からの学習: わずか3〜5枚の画像から特定の主体を学習し、高品質に再現。
- ユニークな識別子の使用: 一般的な単語ではなく、レアトークンを使って主体を識別し、テキストプロンプトとの組み合わせで新しい画像を生成。
- クラス固有の事前保全損失: 言語ドリフトを防ぎ、モデルが多様な画像を生成するための損失関数を導入。
方法
- 入力準備: 3〜5枚の主体画像を用意し、それぞれにユニークな識別子とクラス名を付ける。
- レアトークン識別子: レアトークンを使って識別子を作成。
- クラス固有の事前保全損失: 言語ドリフトを防ぎ、モデルが多様な画像を生成するための損失関数を導入。
イメージは、ユニークな形容詞(識別子)をつけるだけ。
例えば、家にいる犬の画像を生成したいと思ったら、何枚かその犬の写真を撮って、'sks'とかユニークそうな識別子を設定することで、うちの犬='sks'なdogということになる。
実験と応用
- 再文脈化: 主体を異なるシーンやポーズで生成。
- 芸術的レンダリング: 有名な画家のスタイルで主体を描画。
- 視点変更: 主体を新しい視点から生成。
- 特性変更: 主体の色や形状を変更。
注目すべき点
- 高い主体忠実度: 少数の画像から主体の特徴を高い忠実度で保持し、異なる文脈で生成。
- 多様な生成能力: 主体の再文脈化、芸術的レンダリング、視点変更、特性変更など、多岐にわたる応用が可能。
- 効率的な学習プロセス: 短時間でモデルを微調整し、少数の入力画像で効果的に学習。
結論
DreamBoothは、少数の画像とテキストプロンプトを使って、特定の主体をさまざまな文脈で再現する新しい手法。微調整プロセスは簡単で、幅広い応用が可能。このアプローチは、テキスト・画像拡散モデルの新たな可能性を開くものであり、今後の研究や実用化において重要なステップとなるだろう。