1. 概要
言語から画像を生成するタスク(text-to-image)における事前学習済みの拡散モデル(diffusion model)に対して、追加の制約を与えることでタスクごとにコントロールしやすいようにした研究。
2. 新規性
事前学習済みモデルは重みを更新せず(frozen)、トランスフォーマーのアーキテクチャの中に学習可能なパラメータを埋め込むことで、大規模モデル自体の再学習を必要とせずに対象物体のポーズを自由に変えたり同じ物体で異なるシーンの画像を生成できたりするようになった。
3. 実現方法
画像のパッチを予測する部分をVisual、画像のパッチから説明文を予測する部分をCaptioning、与えられた説明文から対応する画像領域を予測するGroundingの3つの予測を同時に行う。
特に、Groundingの予測を学習可能な層であるGated Self-Attentionで行うことで言語から想起される多様なバリエーションと入力となる画像の制約情報をうまく融合させている。
4. 結果
COCOとLVISを用いて構図を入力として画像生成を行うタスク(layout-to-image)で、Zero-shotで性能を評価したところ、既存手法を大幅に上回る性能を示している。
last updates: June 19 2023