Tero Karras, Samuli Laine, Timo Aila
NVIDIA
arXiv, pdf, YouTube
この記事とこの記事の解説も参考にさせてもらい,いくつか画像も引用しています.
どんなもの?
- 高解像度(1024x1024)の画像を生成するGAN,StyleGANを提案.
- 著者の以前の論文で提案されている"Progressive-Growing of GANs"のgenerator部分を発展させたもの(discriminator, lossはそのまま).
- 新たな顔画像データセット,"Flickr- Faces-HQ, FFHQ"を公開.
先行研究との差分
- Mapping networkを導入することで,データセットのfeatures entanglementを解消
- coarse, middle, fineなレベルのstyleを操作可能
- ノイズで(シワ,そばかす,毛先のような)小さなバリエーションをつけることが可能
技術や手法のキモ
Progressive-Growing of GANs(筆者の従来手法)
Progressive-Growing of GANs [26] は高解像度の画像を生成するためのテクニックで,generatorとdiscriminatorを低い解像度の層から順に学習するというもの.
徐々に解像度を大きくすることで,学習を効率的に進め,良い結果に繋がるらしい.
しかし,従来手法では生成する画像を操作することが難しいので,generatorを改良して操作可能に.
Mapping network
以下の画像(fig 1)の (a) が従来の,(b) が提案手法のgenerator.
提案手法のgeneratorはMapping network $f$ (赤破線枠)と Synthesis network $g$ (青破線枠)で構成される.
画像中 A は learned affine transform,B は learned per-channel scaling factors to the noise input で Synthesis network の各畳み込み層の直後にそれらの出力が入力される.
※ 論文中のFigure 1を加工
Mapping networkの目的は入力のベクトル$z \in \mathbb Z$を別の空間$\mathbb W$に射影すること.
つまり,$f: \mathbb Z \to \mathbb W$でエンコード後のベクトルは$w\in \mathbb W$.
これにより,features entanglement(これを解消(disentanglement)しないと,生成画像の操作が難しい)を解消することができる(おそらくデータセットに含まれる画像特徴の分布(偏り)に従わなくてよくなる).
Adaptive Instance Normalization (AdaIN)
ベクトル$w$はlearned affine transform A(おそらく全結合層で2出力,scale vector $y_{s, i}$, bias vector $y_{b, i}$)で画像用のベクトルに変換される.
その後,AdaINでSynthesis networkの特徴ベクトルと合体.
Removing traditional input
画像の生成のために従来のgeneratorにrandom inputを定数(赤枠,4x4x512)に変更.
$w$やAdaINで生成画像を操作できるということを発見したため定数に変更したらしい.
※論文中のFigure 1を加工
Stochastic variation
人間の(シワ,そばかす,毛先のような)小さなバリエーションは,各層のサイズにスケーリングされたノイズで実現.
Bのlearned per-channel scaling factors to the noise inputでスケーリング後に入力.
※論文中のFigure 1を加工
Style mixing
$z_1, z_2$をMapping networkに入力し,得られた$w_1, w_2$を使用してStyle mixingを行う.
どの割合で$w_1, w_2$をmixした$w$を,どの層へ入力するかで,styleを操作することができる.
($w_1$にどれだけ$w_2$の特徴を加えるかを操作)
lower levelの層への入力を操作することでcoarse styleを変更でき,topの層に向かうにつれてmiddle, fine detailを変更できる.
以下の画像がStyle mixingの結果.
入力先の層を変えることで,どのレベルの特徴を操作するかを選べる(YouTubeを見た方が分かりやすい).
Truncation trick in W
generatorはデータセットにあまり含まれていないスタイルを学習することが難しい(似た画像を生成するようになる,mode collapse?).
これを防ぐためにTruncation trickを導入する.
$\mathbb W$の平均$\bar{w} = \mathbb E_{z\sim p(z)} \bigl[f(z)\bigr]$を求めて,$w$を
w^{\prime} = \bar{w} + \psi(w - \bar{w})
とする.
$\psi$でどれだけ平均画像から離れた画像を生成するかを操作できる(YouTubeを見た方が分かりやすい).
The FFHQ dataset
Flickr-Faces-HQ (FFHQ) は,1024x1024の顔画像70000枚で構成される.
どうやって有効性を検証したか
Quantitative results
2つのデータセットを用いた際のFID scoreの比較.
FID scoreが低いほど生成画像の質が高く,多様性があることを表す.
AからFに進むにつれて提案手法の構造.
Disentanglementを定量化するために,Perceptual path lengthとLinear separability(どちらもentanglement具合の指標)を提案しており,各ネットワークでこれらの値を比較(値は小さいほど良い).
Eが最もよく,Fで値が大きくなったのはstyle mixingを加えることで$W$の分布を学習するのが難しくなったからだと考えられる.
以下はMapping networkの深さを変えた場合の比較.
どの指標も深い構造のものが最も良いことが分かる.
Qualitative results
以下は,Stochastic variationによる変化を可視化したもの.
繊細なvariationを加えられていることが分かる.
standard deviationが大きいところほどStochastic variationが効いており,髪の毛や背景が大きな値となっている一方で,アイデンティティや姿勢などは影響を受けていないことが分かる.
また,瞳のエリアの標準偏差が大きくなっているのは,瞳での光の反射が考慮できているからかも.
以下は,Stochastic variationのためのノイズを加える層を変えたときの比較画像.
- (a) 全ての層にノイズ有り
- (b) ノイズ無し
- (c) topに近い層だけノイズ有り (642 – 10242).
- (d) lowerな層だけにノイズ有り (42 – 322)
ノイズ無しだと絵画っぽくなってしまう.
(c) は finer な影響を与え,(d) は大きな変化を与える.
以下は,Truncation trickの$\psi$の値を変えたときの比較画像.
w^{\prime} = \bar{w} + \psi(w - \bar{w})
$\psi = 0$のとき$w$は平均$\bar{w}$になる.
$\psi$の変化(-1 ~ 1)とともに視点,メガネの有無,年齢,色,髪の長さ,性別が反転しているところが面白い.
以下はその他のデータセットによる結果.
どのデータセットでも非常にバリエーションに富んでいる.
議論はあるか
- 高解像度(1024x1024)の画像を生成するGAN,StyleGANを提案
- Perceptual path lengthとLinear separabilityという評価指標を提案
- この論文で用いられたテクニックや評価指標はその他のGANでも利用できるため,今後のスタンダードになるかも
次に読む論文
この論文の拡張元
Progressive Growing of GANs for Improved Quality, Stability, and Variation