Path Aggregation Network for Instance Segmentation論文まとめ
- 2018年3月にsubmitされた論文
- arXivはこちら
- 略称としてPANetと呼ばれることが多いです。
関連論文
- Feature Pyramid Network for Object Detection論文 2016年発表
- Mask R-CNN論文 2017年発表 →こちらからInstance segmentation,Mask R-CNNの内容を含むザックリまとめに飛べますので、よかったら見てやってください。
本論文はMask R-CNNを改良して、より精度の高いInstance Segmentationを目指した論文になります。
では本論文の概要から見ていきましょう。
PANet論文概要
PANetの特徴は以下の点になります。
- Mask R-CNNをベースにした手法
- 異なるレベルの空間的な特徴量を利用した
Mask R-CNNの弱点として、SegmentationやObject Detectionを行う部分が入力層から離れており、広い受容野の特徴量のみが利用されます。
しかし、精度の高い出力を行うには、より狭い範囲を捉えた特徴量が必要になるため、入力に近い層の情報もうまく活用することが重要になると考えられます。
そこで、本論文では情報の流れ方を変更することでより精度の高い出力を達成しました。
考え方はとてもシンプルな手法です。早速ですがモデル概要図を見ていきましょう。
PANetモデル
本論文より引用しました。
上図の(a)〜(c)がいわゆる特徴量抽出にあたり、(d),(e)はそれぞれObject DetectionとSegmentationを担う部分になります。
このモデルのベースとなったMask R-CNNとの大きな違いは「特徴量抽出」の部分の(b),(c)になります。
(a)はFPNをベースとした抽出器になっており、複数のスケールで予測をおこない、さらにそこに特徴量マップを注入していく構造になっています。
(b)では、入力に近い層がより局所的な特徴を捉えるという考えに基づき、low lebelからtop lebelへの接続を緑、赤の点線で行なっています。
(c)では、それぞれのスケールに適した重み付けを行なってpoolingを行います。この部分の実装はMask R-CNNで使われているRoIAlignを利用しています
このAdaptive feature poolingは以下の図でより詳しく説明されています。
これによって、様々なスケールから得られた特徴量を、どの程度の割合で利用すれば良いかが学習されます。
(d)に関してはMask R-CNNとあまり差がないので説明は割愛させていただき、(e)の説明に移ります。
Mask R-CNNとの変更点はクラス予測と前面/後面予測を二つのbranchに分けたことです。具体的な構造は以下のような図になります。
Mask R-CNNではConvolutionのみの処理がなされていますが、本論文では全結合層の処理が追加されています。
Convolutionによって要素数が少なくなっているので、比較的軽量な処理になっています。
以上がPANetのモデルとなります。一番上の画像が全てを語り尽くしてる感がありますね。
コメント
- Mask R-CNNを知っていたら理解しやすい気がします
- 手前味噌で恐縮ですが、ザックリまとめ HTC(上でも貼ったリンクです)に目を通していただけると理解しやすくなると思います
最後までお読みいただきありがとうございました!
ご質問等あればお気軽にコメントください!