Global Aggregation then Local Distribution in Fully Convolutional Networks
今までのASPPやPSPなどのGA(Global Agression)Moduleは全体の特徴を抽出する事が出来るが、oversmoothingされていると指摘している。
バスでない部分もバスと認識されている。
そこで本論文ではLD(Local Distribution) Moduleを追加する事でGAのoversmoothingを改善する手法を提案している。
アルゴリズム
全体像
BackBone : 特徴量を抽出するネットワーク(ex. ResNet, Xception)
Global Agrregation Module : 全体の特徴を抽出するModule (ex ASPP PSP Non-local CGNL)
Local Distribution Module : localの特徴を抽出するModule (本論文の提案手法)
Task-Speciafic head : 得られた特徴量を使って行うtask (ex Semantic Segmentation, Object Detection, etc...)
GALD Module
GALDはPoint-wiseのMask(重み)を掛け合わせる。MaskはそれぞれのPixelが全体の特徴量(Fga)とMatchしてる場合に1、違う場合に0となる。
一種のAttentionですね。
*MaskはC,H,Wを0~1の範囲で重みを推定する。
outputはFgaldとF(backboneからのLocalなFeature Map)を結合する事で、pixel-wiseの全体の特徴量とlocalの特徴量を組み合わせる事が出来る。
結果
左が複数のGA Moduleを比較している。
右がGAとLDの組み合わせを比較している。
結論
・Globalの特徴をLocalの特徴を組み合わせればいいと考えていたが、Globalの特徴がOversmoothingされている場合精度が低い事に気づけた
参考文献
Global Aggregation then Local Distribution in Fully Convolutional Networks
https://arxiv.org/pdf/1909.07229v1.pdf