Tero Karras, Samuli Laine, Timo Aila
StyleGANのぺーパ。とりあえず評価指標に関する部分だけ。
Perceptual path length
隠れ層の空間の性質が良いことを主張するためにPerceptual path lengthというものを
導入している。
- 隠れ層の性質が良ければ2つの隠れ値$z_1$と$z_2$の間を補間しながら画像を生成した際に画像が連続的に穏やかに変化していくはず。
- 一方隠れ層が折れ曲がっていると補間して生成した画像がドラスティックに何度も変わるはず。
- なので、補間した際の変化の度合いを計測してやれば、それが隠れ層の性質の指標になる。
- $z_1$と$z_2$の間を十分細かく割ってやって、それぞれに対して画像を生成し、画像の差分をすべて足し合わせたものがパス長になる。
- 「画像の差分」をVGG16の埋め込み層での差分として定義する。
- 隠れ層の性質は、すべての端点間に対するパス長の期待値として定義される。
Gは生成関数、slerpは球面線形補間、dはVGGでの距離、εはパスの分割に用いる区分距離。
すべての端点というのは明らかに無理ゲーなので、実際には100000ペアを生成して平均を取っている。区分距離εは10-E4としている。すごく計算が大変そう。
線形分離性
これも隠れ層の性質の良さを主張。隠れ層が画像の属性に対して線形分離可能になっていることを示そうとしている。
- 元の画像データセットには属性がラベルとしてついているので、これを使ってクラス識別器を訓練
- ランダムな$z$に対して画像を生成して、クラス識別機のconfidenceが十分高いものを選別
- 線形SVMを、$z$から属性を予測するように訓練。
- $X$をSVMが予測したクラス、$Y$をクラス分類器が識別したクラスとして、条件付きエントロピー$H(Y|X)$を計算
- これを属性ごとに加算したものの指数を取ってスコアとする。$exp(\Sigma_i H(Y_i|X_i))$ 指数を取るのは対数ドメインの値を線形ドメインに戻して比較しやすくするため。