はじめに
今月 arXiv に上がった以下の論文
[1] X. Zhou, et. al."Tracking Objects as Points"
の logic 部分だけざっくりまとめ
arXiv:
https://arxiv.org/abs/2004.01177
github:
https://github.com/xingyizhou/CenterTrack
提出先の journal や conference 等は不明。
概要
- multi-object tracking 系の論文
- 1つのモデルで物体を detect して tracking まで行う 1-shot 系
- CenterNet から出力される変位情報を元にマッチングさせる
手法
1. 各フレームでbounding box等の検出
CenterNet([2]) そのものなので略。
参考:私のQiita記事
https://qiita.com/masataka46/items/cb5b05090746c7f3b826
ざっくり言うと、画像($I^{(t)} \in \mathcal{R}^{W \times H \times 3}$)を入れて物体の heat-map と off-set 、矩形の縦横 を出力する。これらから物体の位置 ${\bf p}$ 、サイズ ${\bf s}$ 、信頼度 $w$ 等を計算する。
2. 変位チャンネルの出力
このモデルの核心部分。
中身はSTAFモデル等のsequentialな骨格系で使われる Temporal Affinity Fields 的なもの。
つまり、$t-1$ 時の物体位置
\left\{ {\bf p}_0^{(t-1)}, {\bf p}_1^{(t-1)}, \cdots \right\}
から $t$ 時物体位置
\left\{ {\bf p}_0^{(t)}, {\bf p}_1^{(t)}, \cdots \right\}
への変位を表すベクトル
{\bf d}^{(t)}_i = {\bf p}_i^{(t-1)} - {\bf p}_i^{(t)} \ (i=0,1,\cdots)
を同じチャンネルにマッピングしたベクトル場。
3. 変位チャンネルの loss
ターゲットとで L1 をとる。
L_{off} = \frac{1}{N} \sum^N_{i=1} | \hat{D}_{{\bf p}_i^{(t)}} - ({\bf p}_i^{(t-1)} - {\bf p}_i^{(t)}) |
reference
[2] X. Zhou, et. al."Objects as Points"
arXiv:
https://arxiv.org/abs/1904.07850
私のQiitaまとめ:
https://qiita.com/masataka46/items/cb5b05090746c7f3b826