More than 5 years have passed since last update.

論文まとめ：Real-Time Seamless Single Shot 6D Object Pose Prediction

Posted at 2018-11-16

はじめに

CVPR2018から以下の論文
[1]B. Tekin, et. al. "Real-Time Seamless Single Shot 6D Object Pose Prediction"
のまとめ。

モデルの全体像は以下の図（[1]のFigure1より）。

確かにYOLO テイストなアーキテクチャ。（参照 [2]）

下側左から入力画像(b)。

それに対して出力されるfeature mapは $S \times S$ グリッドの $D$ チャンネル。

各グリッドはbounding box（の中心）を１個保持する（c)

それをイメージ化したものが(d)。

具体的には(d)に示したようにbounding boxの中心座標、bounding boxの８つの頂点座標、bounding boxの信頼度、物体のクラスをそれぞれのチャンネルで推定する。

よってクラス数を $C$ として

(1+8) \times 2 + 1 + C

チャンネルだけ存在する。

近接するグリッドは１つの物体に対して似たようなbounding boxを推定するだろう。

これらを以下の手順で１つに絞り込む。

まず予測する中心座標や頂点座標を $\bf{x}$ として、ground truth $\bf{x}\rm_{gt}$ とのユークリッド距離 $D_T(\bf{x})$ を求める。

この $D_T(\bf{x})$ に対して以下の式で各点の信頼度を算出する。

c(\bf{x}\rm) = \begin{cases}
    e^{\alpha (1- \frac{D_T(\bf{x})}{d_{th}})} & if \ D_T(\bf{x}\rm) < d_{th}\\
    0 & otherwise
  \end{cases}

$d_{th}$ は閾値。これをグラフ化すると以下。

距離が縮まるに従って１に近づく。

この $c(\bf{x}\rm)$ を９点で平均してbounding box各点に関する信頼度とする。

まずbounding boxの中心座標 $(c_x, c_y)$ はsigmoidで０から１の範囲を出力する。(0,0)がグリッドの左上、(1,1)はグリッドの右下。

８個の頂点は、

g_x = f(x) + c_x \\
g_y = f(y) + c_y

とする。 $f(\cdot)$ は恒等写像。

bounding boxの座標に関するlossを $\mathcal{L}_{pt}$ 、

物体に対する信頼度に関する loss を $\mathcal{L}_{conf}$ 、

物体のクラスに関する loss を $\mathcal{L}_{id}$ としてloss全体はこれらの総和

\mathcal{L} = \lambda_{pt}\mathcal{L}_{pt} + \lambda_{conf}\mathcal{L}_{conf} + \lambda_{id}\mathcal{L}_{id}

となる。係数 $\lambda_{conf}$ はYOLOと同様、物体がある時とない時で別の値とする。具体的には物体がある時は 5.0、ない時は 0.1。

$\lambda_{pt}, \ \lambda_{id}$ は1.0。

書きかけ