More than 1 year has passed since last update.

GigaGAN: Scaling Up GANs for Text-to-Image Synthesis

Last updated at 2023-07-01Posted at 2023-06-26

1. 概要

テキストから画像を生成するタスク(text-to-image)はここ最近で劇的に成功例が増えているが、画像を生成するモデルのアーキテクチャの進化によるところが大きい。以前は、敵対的ネットワーク(Generative Adversarial Networks:GANs)がデファクトとなっていたが、昨今は拡散モデル(diffusion model)と自己回帰モデル(autoregressive)を用いたDALL・E2などの大規模画像生成モデルが主流になっている。
この研究では、敵対的ネットワーク(GANs)がこうした大規模ネットワークに比べてパラメータが少ないことが原因で精度に差が出ているのではないかと考え、10億(1B)のパラメータを持つGigaGANを提案している。

2. 新規性

GANsのパラメータは高々200M程度に留まりスケーラビリティがないことが問題であったため、以下のような工夫を加えて学習可能なパラメータを圧倒的に増やすことに成功した。

L2 self/cross-attention(著者はこの項が一番重要だと述べている)
Adaptive kernel selection
Multi-scaling training
Matching-aware Loss
Clip contrastive Loss(著者によれば次に重要な項は対照学習のロスとのこと)
Vision-aided adversarial Loss

3. 実現方法

Generatorのアーキテクチャは荒い画像の多重ピラミッド(8x8-64x64)から学習して徐々に高解像度化していくcoarse-to-fineの戦略を取っており、事前学習にCLIPを採用することでテキストから画像が生成できるように調整を加えている。Discriminatorの学習時にも多重解像度で学習が進む。興味深いことに、一度低解像度で学習しておいたGeneratorのネットワークの入力に512x512の画像を入れるとマルチスケールで2Kの解像度の画像が高解像度で出力される。つまり、高解像度化において追加学習は含まれていない。

4. 結果

LAIONデータセット(20億枚:2B)の大規模ネットワークを使ってGANsの学習を実施したが、1エポック学習するのに2－3週間かかったため学習を打ち切り生成結果を見てみたところ、クオリティが非常に高く著者も驚きの結果となった。

Paper URL: https://openaccess.thecvf.com/content/CVPR2023/papers/Kang_Scaling_Up_GANs_for_Text-to-Image_Synthesis_CVPR_2023_paper.pdf

last updates: June 21 2023

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up