どんな論文?
論文中では信号機の誤検出がなぜ起きているかが示されている。
論文
まとめ
paddingがfoveationを発生させる⇒foveationが発生した状態で学習すると非対称なfilterが生成される⇒非対称なfilterで畳み込むと特徴マップに空間バイアスが発生し、死角などが発生する⇒小さいワークなどの見落としにつながる。
画像の入力サイズが不均一なpaddingの適用、foveationを発生させる為、式(1)を考慮する必要がある。
paddingの種類によってもfoveationの発生の仕方が異なるため、求められる検出精度によってはpaddhing方法を検討する必要がある。
paddingのfoveationへの影響をfoveation mapを使うことで把握することができる。
課題 / 問題
赤丸で囲った信号機の検出率が位置が微妙に異なるだけで異なることが課題とされてる。(下記図はSSDで信号を検出した場合)
左の画像(少し上に移動された画像)は44%、真ん中の画像(基本位置)は7%と非常に低く、右の画像(少し下に移動された画像)だと82%も検出できている。
検出率のスコアをプロットしてみるとpaddingがない場合は上部のほうに検出率が非常に低い横線が現れている。mirror paddingにするとこのような死角は現れない。paddingが死角の出現に関係しており、
また、SSDは各バウンディングボックスに対して、背景らしさと信号らしさのスコアを出している為、visualize化すると下記のようになっている。
空間バイアスの発生
フィルタの非対称性が特徴マップの空間バイアスを生み出している様子を紹介。
まずは、特徴マップ上の空間バイアスをvisualize化してみた。
0paddingされた画像(初期値0)を入力して各層の特徴マップを見てみると、最初は画素が0ですべての画素がバイアス分増加している為偏りはないが、2番目の特徴マップでは左側の境界だけが他よりも値が低く、他の境界は値が高くなっている。初回でバイアス分増加してした画素が入力になっており、filterの重みの影響で出力に偏りが出てくる。
では、次にfilterを見てみる。
Figure3は各層のカーネルを平均したものである。L1の平均3*3フィルタは左側がnegativeな重みで下側がpositiveな重みになっている。
これはRELU1の現象と一致している。フィルタの非対称性が特徴マップの空間バイアスを生み出していると考えられる。
また、RELU8ぐらいから、偏りが内側にprppagateしてきている。これは図1に似ている。
では、なぜfilterの非対称性は生まれるのか?
なぜpaddingが必要か?
なぜfilterの非対称性は生まれるのか?の答えはこの後出てくるが、先に言っておくとpaddingが影響している。
その前にpaddhingがなぜ必要かをおさらい。
①特徴マップのサイズ維持
②境界の特徴も畳み込まれるようにする
パディングがない状態だと境界の画素は周りの画素に比べて畳み込まれる回数が少ない。
以下の図のof conv ops each pixel is involved in(a~iがそれぞれ何回利用されるか)を見ても境界付近は畳み込まれる回数が少ないのが分かる。
パディングをつけることで畳み込まれる回数の偏りが解消されている。
パッディングの不均一な適用の排除
ダウンサンプリングにpaddingを使うことで境界に対するバイアスを減少させることができるが、CNN内部で非対称を引き起こすことにつながる可能性がある。
図6(a)では3x3stride2のフィルタでダウンサンプリングした場合に左側のpaddingは含まれるが、右側のpaddingは含まれなくなってしまう。
この現象により、Input Sizeが224*224の場合は非対称なフィルタが生成される。
このような非対称なフィルタを生まないためには下記式を満たす必要がある。
(hi,wi)はi番目の層の出力形状、
khi×kwiはカーネルサイズ、
(shi,swi)はストライド、
(phi,pwi)はパディング
結局、入力画像の縦h0と横w0が下記式を満たせばよく、
ResNetの場合、5回のダウンサンプリングがあるのでd=5,w5:畳み込み5回目の画像サイズは88の64であるため、w0=2^5(8-1)+1=255となり、入力画像サイズが255255の時は非対称なフィルタが生成されない。実際、図6(b)で入力サイズが255*255の時は非対称なフィルタが生成されていない。
また、画像サイズを255*255にすることで精度の向上も見られる。
パディング機構とfoveation
foveationとは、畳み込み中の入力画素の不均等な関与のことを意味している。
最終出力特徴マップに与える影響が画素の位置によって異なるということ。
論文中ではpaddingがfoveationにどのように影響を与えているかを示している。
foveation mapというものでpaddingの影響をvisualize化して説明しいる。
foveation mapは畳み込み中に何回その画素が使用されたか(最終層に伝播したか)をカウントして、使用回数が多いと黄色、少ないと青として表示している。入力画像の画素をすべて1に割り当て、最終的な畳み込み層の特徴マップの各画素の値を表示している。
図7(a)ではpaddingがない場合ではfoveationが大規模に発生していることが分かる。
これは、画像が縮小しているために周辺の情報は最終出力まであまり伝播されていないことを意味する。
FULL2px 0パディングではfoveationは発生していないが、畳み込みのたびに出力サイズが拡大してしまう。
SAME1px 0パッディングではfoveationは比較的抑えられている。画像サイズが大きいほど黄色いエリアの割合は増加する。
(b)のMirrorパディングはパディング領域を境界のピクセルをミラーリングすることで埋める為、すべての入力画素が平等に畳み込まれるため均一なMapになっている。
Mirror(SYMMETRIC)
aの箇所も他の箇所と同じく9回利用されている。
Replication Padding
内側の使用回数が少なくなる。paddingを境界の値を複製して埋めるためこのようになる。
Circular Padding
foveationは発生していない。
Partial Convolution
畳み込み領域における、0でない領域の割合を重みとして適用する手法。
画像の欠損の修復などに使われているらしい。 参考① 参考②
padding領域は欠損しているとして0として扱う。
結果はMirror(REFLECT)の場合に似ている。
入力画像サイズの影響
図7(e)は式(1)に反しているため、下側と右側に偏りが生じている。
ResNet50で257257時は左右上下対称な0paddingをして左右上下対称なfoveation mapができているが、256256(式(1)に反した画像サイズ)では上と左にしか0paddingしていない場合では右側と下側の情報がうまく伝播されていないために、右側と下側に偏りが生じたfoveation mapができている。
dilationの影響
図7(c)dilation factorを2にした場合、foveationの範囲は2倍に拡大する。
55filterの9か所を参照することと同じであるため、境界は33のときよりも使われにくくなる為、foveationは拡大する。
strideの影響
図7(d)のようにkernelサイズがstrideより大きいときはチェック模様が出現してしまう。
strideでかぶってしまう箇所だけ多くカウントされてしまうため。
まとめ
paddingがfoveationを発生させる⇒foveationが発生した状態で学習すると非対称なfilterが生成される⇒非対称なfilterで畳み込むと特徴マップに空間バイアスが発生し、死角などが発生する⇒小さいワークなどの見落としにつながる。
画像の入力サイズが不均一なpaddingの適用、foveationを発生させる為、式(1)を考慮する必要がある。
paddingの種類によってもfoveationの発生の仕方が異なるため、求められる検出精度によってはpaddhing方法を検討する必要がある。
paddingのfoveationへの影響をfoveation mapを使うことで把握することができる。