1. 概要
テキスト入力に合わせて画像を自由に編集する技術を提案。入力画像と編集内容を示したテキストから、テキストの意味を考慮して画像編集を行うために、大規模な学習データセットを作成しており、これを使って画像生成モデルを再学習した。なお、ベースとなる画像生成モデルはStable Diffusionを採用している。事例ごとのファインチューニングを必要としないので、テキストによる高速画像編集が可能になっている。
2. 新規性
大規模言語モデル(GPT-3)とテキストから画像を生成する画像生成モデル(Stable Diffusion)を組み合わせ、膨大なデータセットを構築した。
3. 実現方法
ファインチューニングされたGPT-3を使用して、画像の編集指示を示したテキストと指示内容を反映したキャプションを生成する。次に、Prompt-to-Promptを組み込んだStable Diffusionでキャプションのペアから画像のペアを自動生成する。この過程を繰り返し学習用のテキスト情報と対となる画像ペアを45万以上生成する。生成した大規模データセットに含まれる編集指示のテキストと編集結果の画像をStable Diffusionの潜在空間上に制約条件として含めておくことで編集指示のテキストに対して編集済みの画像が生成されるようにしている。このとき、時刻tで画像とテキストの制約条件を含むノイズが付与された潜在空間Ztを予測するようにネットワークが学習される。
4. 結果
全体のコンテキストを壊すことなく、特定の対象を言語によりコントロールして再構成できていることがわかる。
last updates: June 23 2023