0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

GLIGEN: Open-Set Grounded Text-to-Image Generation

Last updated at Posted at 2023-06-26

1. 概要

言語から画像を生成するタスク(text-to-image)における事前学習済みの拡散モデル(diffusion model)に対して、追加の制約を与えることでタスクごとにコントロールしやすいようにした研究。


2. 新規性

事前学習済みモデルは重みを更新せず(frozen)、トランスフォーマーのアーキテクチャの中に学習可能なパラメータを埋め込むことで、大規模モデル自体の再学習を必要とせずに対象物体のポーズを自由に変えたり同じ物体で異なるシーンの画像を生成できたりするようになった。


3. 実現方法

image.png
画像のパッチを予測する部分をVisual、画像のパッチから説明文を予測する部分をCaptioning、与えられた説明文から対応する画像領域を予測するGroundingの3つの予測を同時に行う。
特に、Groundingの予測を学習可能な層であるGated Self-Attentionで行うことで言語から想起される多様なバリエーションと入力となる画像の制約情報をうまく融合させている。


4. 結果

image.png
image.png
COCOとLVISを用いて構図を入力として画像生成を行うタスク(layout-to-image)で、Zero-shotで性能を評価したところ、既存手法を大幅に上回る性能を示している。


Paper URL: https://openaccess.thecvf.com/content/CVPR2023/papers/Li_GLIGEN_Open-Set_Grounded_Text-to-Image_Generation_CVPR_2023_paper.pdf

last updates: June 19 2023

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?