物体検出SSD-2 : 物体検出で使う用語の整理(2)

Last updated at 2024-12-14Posted at 2024-11-28

修正

L2Normalaizationに説明を加えました。(赤い字になっています)正規化した値に対してチャネルごとにスケーリング用の学習可能なパラメータをかけることでチャネルごとの重要度を表現することが出来ます。(2024 12/14)

前回分を見ていない方はこちらから。

原論文はこちらから

概要図は下のようになる

(4 × 38 × 38) + (6 × 19 × 19) + (6 × 10 × 10) + (6 × 5 × 5) + (4 × 3 × 3)+ (4 × 1 × 1)\ = 8732

各データ(1つの特徴量マップ)の各チャネルごとのL2ノルムの合計を1にする正規化(正規化後は正規化した値に対してチャネルごとに学習可能なスケーリングパラメータをかける)

例
ある3チャネル特徴量マップのあるセルの値が[1, 2, 3]であったとする

L2norm = \sqrt(1^{2}+2^{2}+3^{3}) = \sqrt{9}=3

この値で割ることで正規化する

[1, 2, 3] → [\frac{1}{3}, \frac{2}{3}, \frac{3}{3}]

実際に、正規化後のL2ノルムの合計は

L2norm = \sqrt((\frac{1}{3}^{2})+(\frac{2}{3}^{2})+(\frac{3}{3}^{2})) = \sqrt{\frac{9}{9}}=1

この値に学習可能なパラメータをチャネルごとに適用する
SSDは複数の解像度で計算された特徴マップを扱うので、L2Normを使用することで、計算された特徴マップに対して、チャネル間で同一のスケールを揃えることになる(L2正規化により)
異なる解像度でも一貫したスケールで特徴量を使用できる
空間情報を壊しずらい(h,wの情報を維持できる。他の正規化手法だとこれが難しい)
これにより学習を安定させる
これに対してスケーリングしてチャネル間の重要度を表現する

CNNは層を深くすると、「フィルタの受容野が拡大」する
「フィルタの受容野が拡大」とはどういうことか具体例で説明
畳み込み層である特徴マップを畳み込みする時にstride=1, kernel size=3, padding=0であるとする
分かりやすくするため、特徴マップのセルに番号を振っている
1回目のカーネル適用でマス目1, 2, 3を見ている
2回目では2, 3, 4マス目を見ている
3回目では3, 4, 5マス目を見ている
次の層で畳み込み(kernel size=3, stride=1)を行う時は上の3マス
これは前の層の5マスに該当する
つまり、同じ画像に対する「今見ているセルの数」は、層が深くなるにつれて多くなる
これが「フィルタの受容野が拡大」するということ
VGGでカーネルサイズ3×3を重ねて「局所的な情報とグローバルな情報の両方を得ることが出来る」とは1回目で「局所的な情報」を(1,2,3のマスの情報)得て、さらに畳み込みをすることで広い情報(1, 2, 3, 4, 5のマスの情報)を得ることが出来るということ