More than 5 years have passed since last update.

機械学習論文読み：SSD / Single Shot Multibox Detector

Last updated at 2018-06-20Posted at 2018-04-26

YOLOに並んで話題のSSD（Single Shot Multibox Detector）の論文を読んでみました。

論文・参考

以下の記事、スライドにとてもお世話になりました。

SSDは、入力に以下が必要
- 画像
- Ground truth box（学習に使う）
それぞれのfeature mapに対応した、defaultがある
- 複数のアスペクト比が定義されている（後述）
ネットワークは以下を推論する
- 中心座標（cx, cy）
- width/height(w, h)
- カテゴリ([$c_1$, $c_2$,,,,$c_p$])

こちらのP40, 41が分かりやすい

数式の一部は、Scalable High Quality Object Detection(2015)を参照した方が分かりやすい。

x_{ij}^p = \{1, 0\}

Scalable High Quality Object Detection(2015)では、$x_{ij}$ = 1をi番目の、prediction が、j番目の grand truthと一致した事を示すとされている。$x_{ij}$ = 0 はそれ以外の場合を示す。

本論文では、複数のカテゴリに対応させるため、category(class) p の j番目の grand truth box　に一致したかどうかを示すため、x_{ij}^p と定義した。

L(x,c,l,g) = \frac{1}{N}(L_{conf}(x, c) + \alpha L_{loc}(x,l,g))

$L_{loc}(x,l,g)$ は、Scalable High Quality Object Detection(2015)ではでは以下の通り定義されていた。

F_{loc}(x, l, g) = \frac{1}{2}\sum_{i, j}x_{ij}||l_i - g_i||^2_2

※ $||x||_2$は、L2ノルム

本論文では以下の通り

L_{loc}(x,l,g) = \sum^N_{i \in Pos}\sum_{m \in {cx, cy, w, h}} x^k_{ij} {\rm smooth_{L1}}(l^m_i-\hat{g}^m_j)

短形回帰（box regression）

smooth_{L1}(x) = \left\{
\begin{array}{ll}
0.5x^2 & if (|x| < 1) \\
|x| - 0.5 &otherwise
\end{array}
\right.

Note: plot したコード

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
x = np.linspace(-4, 4, 100)
y = [smoothL1(i) for i in x]
plt.plot(x, y)

\hat{g}^{cx}_j = (g^{cx}_j - d^{cx}_i) / d^{w}_i

\hat{g}^{cy}_j = (g^{cy}_j - d^{cy}_i) / d^{h}_i

\hat{g}^{w}_j = \log(g^{w}_j / d^{w}_i)

\hat{g}^{h}_j = \log(g^{h}_j / d^{h}_i)

L_{conf}(x, c) = -\sum^N_{i \in Pos}x^p_{ij}\log(\hat{c}^p_i) -\sum^N_{i \in Neg}x^p_{ij}\log(\hat{c}^0_i)

\hat{c}^p_i = \frac{\exp(c^p_i)}{\sum_p{\exp(c^p_i)}}

s_k = s_{min} + \frac{s_{max} - s_{min}}{m-1}(k-1)

w^a_k = s_k \sqrt{a_r} , h^a_k = s_k / \sqrt{a_r}

アスペクト比が1の時は、以下のスケールのバウンディングボックスを追加

s_k = s_{min} + \frac{s_{max} - s_{min}}{m-1}(k-1)

合計6つのバウンディングボックスを使う

以下の方法でサンプリング

base network として VGG16を使う
ILSVRC CLS-LOC dataset(imagenet の Object recognition版)でpretrained
fcレイヤーをコンバートし、finetuning (詳細略)
pool5 を 2x2-s2 から、3x3-s1 に変え、atrousアルゴリズムを使い、穴を埋める
- Dilated畳み込みとも言われる。Poolingは解像度を下げるため。
  　* https://arxiv.org/abs/1606.00915

以下、SSD300は、300x300の画像を入力として使う。
SSD512は、512x512。