ESRGAN
ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks
Xintao Wang, Ke Yu, Shixiang Wu, Jinjin Gu, Yihao Liu, Chao Dong, Yu Qiao, Chen Change Loy
Published in ECCV Workshops 2018
背景
###SISR
低解像度の画像と高解像度にする課題
SRCNN (最初のアプローチ)
|
PNSR-oriented approaches (人間的にはよく見えない)
|
SRGAN (Perceptual-driven methods)
|
ESRGAN (the proposed method)
提案手法
アーキテクチャ (Generator)
-
バッチノーマリゼーションを除去
学習データとテストデータで性質(statistics)が違うと好ましくないartifactsが出てきて、生成能力が制限される。
BNレイヤを取り除けば生成能力も上がるし、計算も減ってメモリにとってもありがたい -
Residual in Residual Dense Block (RRDB)
レイヤの出力を次のレイヤだけでなく別のレイヤにも加える
SRGANにあるresidualブロックよりも深層で複雑。メインの流れにはDense blockを用いている
=> Dense blockによってモデルの容量が大きくなる。
techniques
-
residualスケーリング
main pathに値を加算する前に0~1の定数をかける
=> 不安定さを防ぐ -
smaller initialization
パラメータの初期値の分散が小さい方が、residual構造の学習が楽
Relativistic Discriminator (RaGAN)
通常の識別器は本物の画像に対して1を偽物の画像に対して0を出力するように訓練するが、
Relativistic識別器では
- 本物の画像に対しては、non-transformed(シグモイド関数に入れる前)の本物の画像の出力からnon-transformed(シグモイド関数に入れる前)の偽の画像の出力のミニバッチの平均を引いてからシグモイドに入れる。
- 偽物の画像に対しては、non-transformed(シグモイド関数に入れる前)の偽の画像の出力からnon-transformed(シグモイド関数に入れる前)の本物の画像の出力のミニバッチの平均を引いてからシグモイドに入れる。
損失関数について
SRGANは生成器からのデータの影響しか受けないが
ESRGANは実データと生成データの両方の影響を受ける
=> エッジに強くなり、テクスチャが細かくなる
Perceptual Loss
活性化の前に特徴を制限する
これにより2つの障害を克服できる
- 活性化された特量がまばら。(特に深いネットワークの場合) -> 弱いsupervisionと劣った性能
- 活性化された特徴を使うと、明るさが不安定になる
Network Interpolation (the network interpolation strategy for balancing perceptual quality and PSNR)
PSNRベースのモデルを学習し、GANベースのモデルをfine-tuningによって得る
メリットが2つ
- 適切な比率に対して、意味のある結果をもたらす
- 再訓練することなく、質と忠実度を安定させられる。
それぞれの提案手法を使った場合と使わなかった場合で比較していくと、
全て有効性が確かめることができた。