More than 5 years have passed since last update.

ザックリまとめ Path Aggregation Network for Instance Segmentation論文

Posted at 2019-08-20

Path Aggregation Network for Instance Segmentation論文まとめ

2018年3月にsubmitされた論文
arXivはこちら
略称としてPANetと呼ばれることが多いです。

PANet論文概要

PANetの特徴は以下の点になります。

Mask R-CNNをベースにした手法
異なるレベルの空間的な特徴量を利用した

Mask R-CNNの弱点として、SegmentationやObject Detectionを行う部分が入力層から離れており、広い受容野の特徴量のみが利用されます。
しかし、精度の高い出力を行うには、より狭い範囲を捉えた特徴量が必要になるため、入力に近い層の情報もうまく活用することが重要になると考えられます。
そこで、本論文では情報の流れ方を変更することでより精度の高い出力を達成しました。

考え方はとてもシンプルな手法です。早速ですがモデル概要図を見ていきましょう。

PANetモデル

本論文より引用しました。
上図の(a)〜(c)がいわゆる特徴量抽出にあたり、(d),(e)はそれぞれObject DetectionとSegmentationを担う部分になります。

このモデルのベースとなったMask R-CNNとの大きな違いは「特徴量抽出」の部分の(b),(c)になります。

(a)はFPNをベースとした抽出器になっており、複数のスケールで予測をおこない、さらにそこに特徴量マップを注入していく構造になっています。

(b)では、入力に近い層がより局所的な特徴を捉えるという考えに基づき、low lebelからtop lebelへの接続を緑、赤の点線で行なっています。

(c)では、それぞれのスケールに適した重み付けを行なってpoolingを行います。この部分の実装はMask R-CNNで使われているRoIAlignを利用しています
このAdaptive feature poolingは以下の図でより詳しく説明されています。

これによって、様々なスケールから得られた特徴量を、どの程度の割合で利用すれば良いかが学習されます。

(d)に関してはMask R-CNNとあまり差がないので説明は割愛させていただき、(e)の説明に移ります。

Mask R-CNNとの変更点はクラス予測と前面/後面予測を二つのbranchに分けたことです。具体的な構造は以下のような図になります。

Mask R-CNNではConvolutionのみの処理がなされていますが、本論文では全結合層の処理が追加されています。
Convolutionによって要素数が少なくなっているので、比較的軽量な処理になっています。

以上がPANetのモデルとなります。一番上の画像が全てを語り尽くしてる感がありますね。

Mask R-CNNを知っていたら理解しやすい気がします
手前味噌で恐縮ですが、ザックリまとめ HTC(上でも貼ったリンクです)に目を通していただけると理解しやすくなると思います

最後までお読みいただきありがとうございました！
ご質問等あればお気軽にコメントください！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

ザックリまとめ Path Aggregation Network for Instance Segmentation論文

Path Aggregation Network for Instance Segmentation論文まとめ

関連論文

PANet論文概要

PANetモデル

コメント