LoginSignup
6
10

More than 5 years have passed since last update.

Generative Image Inpainting with Contextual Attentionを読んだ

Posted at

Jiahui Yu, Zhe Lin, Jimei Yang, Xiaohui Shen, Xin Lu, Thomas S. Huang
CVPR2018
arXiv, pdf, github

どんなもの?

アテンション用いて周囲のテクスチャを利用する,生成モデルベースの画像の補完手法を提案.
image.png

先行研究との差分

  • 離れた場所にある,関連するパッチを取得してくるアテンション
  • 学習のロバスト性やスピードを向上させるためのテクニック(state-of-the-artの手法で2ヶ月かかる学習を1週間で可能に)
  • 多様な画像(顔,織目,風景など)でも質の高い画像補完を実現するネットワーク構造

技術や手法のキモ

全体像

Figure 2がアテンション無しの提案手法1(baseline model).

Contextual Attention

Contextual Attention LayerをDilated Convとパラレルに追加.(これがアテンション有りの提案手法2(full model))
相関の大きなパッチを利用してデコーディング.
Attention Mapの色が,画像中のアテンションの場所に対応.
image.png

Backgroundのパッチ(3x3)とForegroundを畳み込むことで相関を計算.
image.png

どうやって有効性を検証したか

state-of-the-artとの比較

state-of-the-artの手法 [15]と比較.
まずは比較手法とbaseline model(つまりアテンション無し)を比較.
見た感じ違いは分かりにくいが,baseline modelでは,比較手法で用いられるpost-processing step (image blending) 無しでこの結果が得られる.
image.png

続いて比較手法とfull model(つまりアテンション有り)を比較.
提案手法は,周囲のテクスチャ,構造を活用することで,よりアーティファクトが少なく自然な補完ができている.
image.png

人の顔や模様に対する結果.
Attention Mapを見ることで,画像のどの辺りが補完に利用されているか分かる.
image.png

以下は定量的な評価.
評価指標は,mean $l_1$ error, mean $l_2$ error, peak signal-to-noise (PSNR), total variation (TV)の4つ.
学習ベースの手法は$l_1$, $l_2$, PSNRで良い結果だが,TV lossにおいては直接パッチを貼り付ける手法が最も良い.
(PSNRはピーク信号対雑音比.信号がもたらす最大パワー/劣化をもたらすノイズ.おそらく今回の場合,信号は元画像,ノイズは補完による誤り.)
(total variationは勾配の絶対値を積分したもの.画像内の変化が小さいほど小さな値になる.)
image.png

Ablation study

その他のアテンションモジュール

  • spatial transformer network [17]
  • appearance flow [42]

と比較.
spatial transformer networkは画像中のグローバルなアフィン変換がcoarse過ぎるためうまくいかない(STN-based attention does not work well for inpainting as its global affine transformation is too coarse.).
appearance flowは2つの画像で酷似したAttention Mapが生成されてしまっている(局所解にハマってしまう).
image.png

DC-GAN,LSGANでも実験したが,うまくいかない.
WGAN-GP lossが有効であると分かる.
image.png

また,図,表は無いが,

  • $l_1$ reconstruction lossは必須
  • perceptual loss, style loss, total variation lossの有無は,結果の改善に繋がらなかった

とのこと.

議論はあるか

  • coarse-to-fineな画像補完手法を提案
  • 提案したcontextual attention moduleは,関連するbackgroundのパッチを利用し,画像補完の性能向上に繋がる

今後は,

  • さらに高解像度な画像補完に拡張

を目指し,提案モデルとcontextual attention moduleは,

  • conditional image generation
  • image editing
  • computational photography tasks (image-based rendering, super-resolution, guided editing)

などへの応用が期待できる.

次に読むべき論文

GANを用いた手法

6
10
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
10