原論文
Strip Pooling: Rethinking Spatial Pooling for Scene Parsing
https://arxiv.org/pdf/2003.13328.pdf
結論
細長いpoolingで無駄のないグローバル情報を獲得できるよ.
概要
画像認識分野において,空間情報を集約するPoolingは,遠くにある情報を捉えるのに有効である.しかし,一般的に使用されるPoolingは,正方形の範囲の情報を集約する方法で,下図に示す緑の範囲は,様々なオブジェクトの情報が含まれており,Poolingの範囲を大きくすると,それだけ無駄な情報を一緒に計算してしまう.そこで,細長い範囲のPoolingを提案する.下図の赤で示す範囲をPooling範囲とすることで,無駄な情報を取り入れずにより長距離の情報を取り入れて計算できる.
例えば,自動車カメラのデータの場合,電柱や車線など,直線的なオブジェクトが多くあり,この手法が有効である.
モデル構造
Strip Pooling Module(SPM)
縦方向のpool(紫)と横方向のpool(赤)をする.紫は,縦の情報を1つの値になるので,出力が($1 \times W$),赤は,横の情報を1つにするので($H \times 1$).それぞれ畳み込み層を通し,拡張して($H \times W$).それらの要素和→1x1Conv→sigmoid(値を0~1)して入力と要素積.これによって,入力特徴量に長距離poolを活用した空間の重要度付けができる.
Pyramid Poolingと組み合わせる
下図の(a)にPyramid Poolingを示す.サイズの違う範囲をpoolして,スケールアップでサイズを合わせて,要素和→Convする.これは,(b)に示すStrip Poolingとは対照的に,局所的な情報を取り込む構造である.この(a)と(b)を組み合わせることにより,グローバルとローカルの情報を考慮でき精度向上する.
実験
セグメンテーションタスクで良い結果.建物や人工物のような直線的なオブジェクトに強い.
まとめ
細長いpoolingでグローバル情報獲得【Strip Pooling】について解説した.縦と横の軸を別々に認識させる方法は,たくさんあるよね.この技術を空間の重要度付けに使用した.