0

物体検出SSD-1 : 物体検出で使う用語の整理(1)

Last updated at 2024-12-12Posted at 2024-11-22

修正

ボックスでの表現の節で「以上よりDBoxでの表現は[0.327, 0.629, 0.416, 0.424]となる」とありましたが、これを「[cx, cy, h, w]での表現では...」に変えました。BBoxでの表現を説明しているのに、DBoxと混在してしまっていました(BBoxを求める時はいったん[cx, cy, h, w]にした後に[x_min, y_min, x_max, x_min]の形にします...(2025 12/19)
式(6)の後の説明を修正しました。こちらもDBoxとBBoxが混在していたためです。
また、オフセットの導出式(式(5),(6))を修正しました...(2025 12/19)

参考文献

新納浩幸『PyTorchによる物体検出』オーム社, 2020年
Wei Liu, et al. "SSD: Single Shot MultiBox Detector", ECCV, pp. 21-37, 2016.

SSDの原論文

SSDでの物体検出

画像から予め設定したラベルを持つ物体部分を見つけだして、その物体を囲むバウンディングボックス(BBox)という枠を付ける処理
また物体のクラス識別も同時に行う
例はすぐ下の画像
同じ画像に複数の物体があることもあることにも対応
同じ画像に同じクラスの物体が複数あることにも対応

ボックスの形式

物体に対する出力の形式はBBox(バウンディングボックス)、物体のラベル、推定の信頼度の3つ
下の画像の青い枠がBBox
0.95が信頼度(softmaxの出力で確率)

BBoxの表現をどうするのかを決めておく必要がある
まず、画像内部を次のようにx座標、y座標がそれぞれ[0, 1]の範囲で表現する
BBoxをBBoxの中心座標(cx, cy), 幅w、高さhの4つで表現 : [cx, cy, w, h]
もう一つの表現としてはBBoxを前述した座標で表現 : [x_min, y_min, x_max, y_max]
具体的には下の例の通り (座標の値の縮尺は参考文献のままです!)
下の画像では[x_min, y_min, x_max, y_max]=[0.119, 0.417, 0.535, 0.841]の表現であるが、[cx, cy, w, h]の表現で書くと次のようになる

cx = \frac{(0.535 + 0.119)}{2} = 0.327

 cy = \frac{(0.841 + 0.417)}{2} = 0.629

w = (0.535 - 0.119) = 0.416

h = (0.841 - 0.417) = 0.424

以上より[cx, cy, h, w]での表現は[0.327, 0.629, 0.416, 0.424]となる

DBox(デフォルトボックス)とオフセット

SSDはBBoxの検出にDBoxとそのオフセットという考えかたを導入(モデルの出力の1つとして予測オフセットがある)
DBoxは予め決められている画像中のに定数のように定められたもの
畳み込みニューラルネットワークを適用した後の出力のセルに対応する形で各セルに4つor6つある(この後にも説明)
検出すべきBBoxとDBoxとの差分がオフセット(厳密にはただ引き算した訳ではない)
DBoxとオフセットによって検出結果であるBBoxを表現

DBox(cx, cy, w, h)のオフセットが(Δx, Δy, Δw, Δh)となっていたとする
検出結果(cx', cy', w', h')は以下のようになる

cx'= cx + 0.1\Delta x　　...(1)

    cy' = cy+0.1\Delta y　　....(2)

w' = w×exp(0.2\Delta w)　　...(3)

h' = h×exp(0.2 \Delta h)　　...(4)

いきなり出てきた0.1や0.2のイメージを掴む目的も踏まえ、オフセット(x, yとh,wで説明を分けて)の導出を以下で説明

オフセット(x, y)

検出すべきBBoxとDBoxとの差分がオフセット(厳密にはただ引き算した訳ではない)
0.1や0.2はハイパーパラメータで、画像の解像度におけるlossのスケールを揃えるための値
cx'とcy'で同じ値、w'とh'で同じ値を使用
cx_bboxが予測したBBoxの中心座標、cx_dboxをDBox中心座標w_dboxをDBoxの幅とするとオフセットはこのように定義される

\Delta x = \frac{(cx_\text{bbox} - cx_{dbox})}{0.1w_{\text{dbox}}}　　...(5)

w_dboxで割ることで、異なるBBoxでも誤差のスケールを揃えられる(スケールが異なると学習が安定しない)
幅だけで正規化するとまだ不安定になる可能性があるため、0.1を掛けてスケールをさらに調整するイメージ
Δyも同様

オフセット(w, h)

w_bboxを予測が予測したBBoxの幅、w_doxをDBoxの幅とするとオフセットはこのように定義される

\Delta y = \frac{log(\frac{w_\text{bbox}}{w_\text{dbox}})}{0.2}　　...(6)

(4)は(1)から(5)は(4)から導出できる
幅や高さのオフセットでは「BBoxの幅(高さ)はDBoxの幅の何倍か」を計算して、その値の対数スケールを求め正規化、0.2で割ってさらに正規化するイメージ

特徴マップを用いたクラス識別

SSDでは複数の解像度の特徴マップが生成
[batch_size, channel, hight, width]の出力が途中でたくさん生成されるということ
1つの特徴量マップのセルに対して異なるサイズやアスペクト比(縦:横の比)のDBoxが複数生成
例としてあるサイズの特徴マップでは1セルで4つ、別のサイズの特徴マップでは1セルで6つなど
このDBoxを用いて計算される予測オフセットを重みやバイアスなどを更新して精度を上げるイメージ
その領域は特徴量マップから設定されたものであるので特徴マップを使えばクラス識別が可能
=> BBoxを用いた物体検出とクラス識別の両方を実現

SSDの処理概要

処理の流れは次の通り
出力特徴マップの各セルに対応した4 or 6個のDBoxをアスペクト比を用いることで作成(畳み込み演算の前に出力の各セルに対応する形で作成される)

↑上の写真のように1セルに4つのDBoxが作成(上の写真は6×6だが、実際は別のサイズ)サイズによっては6個作成される.作成されるDBoxの詳細は下のアスペクト比のところで。
畳み込み演算
畳み込みで得られる特徴マップを複数出力(計6個)
この6個の出力を用いて、オフセットとクラスの信頼度を計算
最終的な出力はDBox (shape : [batch_size, channel, hight, width])、クラスの信頼度、厳密にはsoftmax適用前のlogits値で(shape [batch size, DBoxの数, num_classes])、オフセットの予測値(shape [batch size, DBoxの数, 4(Δx, Δy, Δw, Δh)])
推論時はまた異なるので注意(先のQiitaの更新で説明)

アスペクト比

縦 : 横の比率
DBoxは途中で出力される特徴マップの各セルに対応する形で生成される(厳密にはモデルのコンストラクタで生成される)
4つのDBoxを作る場合は以下の4つのDBoxが特徴マップの各セルに対応する形で作成
小さい正方形
大きい正方形
1:2の比率の長方形
2:1の比率の長方形

6つのDBoxを作る場合は以下の6つのDBoxが特徴マップの各セルに対応する形で作成
4つの場合と同じもの
1:3の比率の長方形
3:1の比率の長方形

なお、画像の端をはみだしたDBoxは、はみだした部分は削れる

次回

SSDのネットワークモデル
VGG
L2Normalization

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0