背景
DeepLab(v2)を調べたから次はDeepLab(v3)のupdateについて比較していきたいと思う。
version2からのupdate
DeepLab(V2)ではDilated conv が4種類rate=(6,12,18,24)とあったが大きなrateになると、filterが大きすぎて端っこの情報しか畳込んでいない事に気づきrate=24を削除した。
さらにImage Pooling(average pooling)と1x1 convolutionを足すことで画像サイズを多様化させた。
Multi-Gridという手法をResNetで特徴量を抽出するのに用いた。(a)普通のconvolutionを用いて画像全体の特徴を得ようとすると画像サイズを縮小しないとイケない(b)Dilated(Atrous) Convなら画像サイズを小さくせずに済む
実験した結果(1,2,1)が一番精度が良かったらしい。
結論
・ResNetにDilated(Atrous) Convを導入し、Multi-Gridで様々な比のrateで畳み込みしたこと
・ASSP Moduleの弱点を修正したこと
次はDeepLab(v3+)について調べたいと思う
参考文献
Rethinking Atrous Convolution for Semantic Image Segmentation
https://arxiv.org/pdf/1706.05587.pdf#page=10&zoom=100,412,814