1

More than 1 year has passed since last update.

@rabbit-313(Ru Ito)

Generalized Real-World Super-Resolution through Adversarial Robustnessを読んでみた

Posted at 2023-03-12

初めに

2021年のICCVに投稿された" Generalized Real-World Super-Resolution through Adversarial Robustness"という論文について解説する．
今回紹介する論文のURL，GitHub

解説

どんなものか?

現在の超解像モデルが抱えている実世界の低解像度画像に対して性能が低いという問題に取り組んだ研究
既存の超解像モデルに敵対的学習を行うことで性能を向上させた

先行研究と比べて何がすごいのか?

既存モデルに敵対的学習を行うだけで，実世界の低解像度画像に対しての超解像性能を向上させた（つまりモデルの大きな変化などはない）
実世界の低解像度画像に似るよに作った人工的な画像に対しても超解像性能が向上した（これは割と当たり前）

技術の手法や肝は？

ESRGANの事前学習モデルを用意する
ESRGANについてはいずれ解説するかも...？
敵対的攻撃PGDを用いて敵対的サンプルを生成する（訓練に使用すると超解像性能が低下してしまうようなノイズの乗った画像）
敵対的サンプルを用いて通常の訓練を行う
2に戻る

このようにして訓練されたモデルをRSRと呼ぶ．

つまり，モデルにとって性能が低下してしまうような入力で訓練することでロバスト性を向上させている．例えるなら，毎日過酷な訓練を与え続け，多少のことでは動じないプロレスラーを育成していることと同じ．

どうやって有効だと検証した？

実世界の低解像度画像と人工的に生成した低解像度画像の両方に定性・定量評価を行った
定量評価にはPSNR，SSIM，LPIPSを用いた

実験結果

人工的に生成した画像での評価

ImpressionismとESGAN-FSは実世界の低解像度画像に対して良い性能がある超解像モデルが，訓練データと検証データが一致している場合には性能が良いが，異なる場合には性能の低下が見られたことがわかる（上図の黄色い正方形で囲まれた部分）．
提案手法であるRSRは訓練データと検証データが異なっているにも関わらず，性能の向上が見られた．具体的には，DIV2Kデータセットで訓練したRSRがAIMとNTIREという2つの検証データに対して性能が向上した．

実際の低解像度画像での評価

先ほどと同様な結果が得られた
ESRGANと比較すると明らかに向上している（ESRGANに敵対的学習をしただけなのに）．

定量評価

PSNR，SSIMは大きほど良い値，LPIPSは小さいほど良い値
提案手法は，PSNR，SSIMが低下しているもののLPIPSが大幅に向上している
PSNR，SSIMは超解像タスクにおいてあまり当てにならないことがよく知られてるためこれはすごく良い結果

1

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

1