背景
[DeepLab(v1)](https://qiita.com/minh33/items/8eb31d16a975d2a87de5)を調べたから次はDeepLab(v2)だ!と思い探していると、恐らくそれっぽい論文が見つかったのだが、タイトルがほぼ一緒で戸惑った。ちょっと文字足しだけやんけDeepLab(v1)
SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFSDeepLab(v2)
DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution,and Fully Connected CRFsversion1からのupdate
Spatial Pyramid Poolingを知っている人なら簡単に分かると思うのが、ASPPではPoolingで解像度を落とさず、代わりにAtrous(Dilated) Convolutionで全体の特徴を取りに行くので特徴量Mapが小さくならずに済む。
downsampleしたりupsampleせずに情報が得られるから、個人的に結構すごいと思う。
Atrous(Dilated) Convolutionの凄さ
図からみて分かるように
downsample->convolution->upsampleするより
Atrous Convolutionする方が特徴がDenseに取れる。
上の方法だとSmoothingする為のLayerもう一枚追加する必要がありそう。