More than 1 year has passed since last update.

GLIGEN: Open-Set Grounded Text-to-Image Generation

Last updated at 2023-07-21Posted at 2023-06-26

1. 概要

言語から画像を生成するタスク(text-to-image)における事前学習済みの拡散モデル(diffusion model)に対して、追加の制約を与えることでタスクごとにコントロールしやすいようにした研究。

2. 新規性

事前学習済みモデルは重みを更新せず(frozen)、トランスフォーマーのアーキテクチャの中に学習可能なパラメータを埋め込むことで、大規模モデル自体の再学習を必要とせずに対象物体のポーズを自由に変えたり同じ物体で異なるシーンの画像を生成できたりするようになった。

3. 実現方法

画像のパッチを予測する部分をVisual、画像のパッチから説明文を予測する部分をCaptioning、与えられた説明文から対応する画像領域を予測するGroundingの3つの予測を同時に行う。
特に、Groundingの予測を学習可能な層であるGated Self-Attentionで行うことで言語から想起される多様なバリエーションと入力となる画像の制約情報をうまく融合させている。

4. 結果

COCOとLVISを用いて構図を入力として画像生成を行うタスク(layout-to-image)で、Zero-shotで性能を評価したところ、既存手法を大幅に上回る性能を示している。

Paper URL: https://openaccess.thecvf.com/content/CVPR2023/papers/Li_GLIGEN_Open-Set_Grounded_Text-to-Image_Generation_CVPR_2023_paper.pdf

last updates: June 19 2023

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up