LoginSignup
1
3

More than 3 years have passed since last update.

【semantic segmentation】PSPNet : Pyramid Pooling最強説

Last updated at Posted at 2020-11-16

概要

image.png

とてもシンプルなネットワークだがなかなかの精度が出るPSPNet

a)画像を入力 b)ResNetで特徴を取り出す c)Pyramid Poolingで様々なスケールの特徴を学習し、画像サイズを合わせて結合する。d)1x1 convolutionで出力chanel数をclass数と一致させるsemantic mapを出力する。

githubにコード上げる予定です
https://github.com/yokosyun/SegNet

比較実験

image.png

  1. max poolingよりaverage poolingの方が精度が高かったらしい。max poolingの方が特徴がはっきり残って良いと思ったのが、、、

  2. B1236の方が複数サイズでpoolingしているのでB1より精度はもちろんの事高くなっている。

  3. Poolingしたあとconvolutionで次元を削減する事で多少精度が上がっている。余分な次元が減って学習しやすくなったのではないかと。

auxiliary loss

(b)Feature Mapを生成する為のResNetの途中の層でもclassificationを行い、d)と同じくlossを計算する。深いネットワークを使う時に消失勾配を減少する事が出来そう。

結果

入力
input_tensor.png

ground truth
target_tensor.png

出力
predicted_tensor.png

batch size8で23epochしかtrainingしてないのに良い感じ!
resnet50のpretrained weightを使ったからかな

結論

Pyramid Poolingするとやっぱり精度は上がるね

参考文献

Pyramid Scene Parsing Network
https://arxiv.org/pdf/1612.01105.pdf

1
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
3