初めに
2021年のICCVに投稿された" Generalized Real-World Super-Resolution through Adversarial Robustness"という論文について解説する.
今回紹介する論文のURL,GitHub
解説
どんなものか?
- 現在の超解像モデルが抱えている実世界の低解像度画像に対して性能が低いという問題に取り組んだ研究
- 既存の超解像モデルに敵対的学習を行うことで性能を向上させた
先行研究と比べて何がすごいのか?
- 既存モデルに敵対的学習を行うだけで,実世界の低解像度画像に対しての超解像性能を向上させた(つまりモデルの大きな変化などはない)
- 実世界の低解像度画像に似るよに作った人工的な画像に対しても超解像性能が向上した(これは割と当たり前)
技術の手法や肝は?
- ESRGANの事前学習モデルを用意する
ESRGANについてはいずれ解説するかも...? - 敵対的攻撃PGDを用いて敵対的サンプルを生成する(訓練に使用すると超解像性能が低下してしまうようなノイズの乗った画像)
- 敵対的サンプルを用いて通常の訓練を行う
- 2に戻る
このようにして訓練されたモデルをRSRと呼ぶ.
つまり,モデルにとって性能が低下してしまうような入力で訓練することでロバスト性を向上させている.例えるなら,毎日過酷な訓練を与え続け,多少のことでは動じないプロレスラーを育成していることと同じ.
どうやって有効だと検証した?
- 実世界の低解像度画像と人工的に生成した低解像度画像の両方に定性・定量評価を行った
- 定量評価にはPSNR,SSIM,LPIPSを用いた
実験結果
人工的に生成した画像での評価
- ImpressionismとESGAN-FSは実世界の低解像度画像に対して良い性能がある超解像モデルが,訓練データと検証データが一致している場合には性能が良いが,異なる場合には性能の低下が見られたことがわかる(上図の黄色い正方形で囲まれた部分).
- 提案手法であるRSRは訓練データと検証データが異なっているにも関わらず,性能の向上が見られた.具体的には,DIV2Kデータセットで訓練したRSRがAIMとNTIREという2つの検証データに対して性能が向上した.
実際の低解像度画像での評価
- 先ほどと同様な結果が得られた
- ESRGANと比較すると明らかに向上している(ESRGANに敵対的学習をしただけなのに).
定量評価
- PSNR,SSIMは大きほど良い値,LPIPSは小さいほど良い値
- 提案手法は,PSNR,SSIMが低下しているもののLPIPSが大幅に向上している
- PSNR,SSIMは超解像タスクにおいてあまり当てにならないことがよく知られてるためこれはすごく良い結果