LoginSignup
5
7

More than 3 years have passed since last update.

論文まとめ:Towards Real-Time Multi-Object Tracking

Posted at

はじめに

ECCV 2020 から以下の論文
[1] Z. Wang, et. al. "Towards Real-Time Multi-Object Tracking". ECCV 2020.
のまとめ

例えばMOT16 dataset だと割とSOTAに近い結果。
https://paperswithcode.com/sota/multi-object-tracking-on-mot16

一部書きかけ

概要

  1. 同時に多数の人をトラッキングする(multi-object tracking)モデル
  2. detectionと特徴量抽出を同時に行う(1-shot)ことにより推論速度を上げた

以下の図では上2つが既存の2-shot系モデル。下の本手法JDEはbounding boxと特徴量を同時に出す。

JDE_img00.png

この論文の位置付けを考えるに、個人的には以下のような時代の流れ

1)2-shot系(detectionしてから、そこの特徴量を抽出する)

2)1-shot系のアンカーベース・・・本論文

3)1-shot系のアンカー無し・・・FairMOTモデル等

4)次のフレームもNNから予測・・・CenterTrack等

の中の2)あたりかなと。

ネットワークのアーキテクチャ

ネットワークのアーキテクチャは以下。

JDE_img01_0.png
[1] Figure 2より

FPN系。

出力は以下の3種類

  1. 物体か物体でないかの識別
  2. bounding boxのサイズ
  3. 物体のembedding

JDE_img01_1.png
[1] Figure 2より

Loss

1. 物体か物体でないかの識別に関する loss

識別問題なので交差エントロピー

2. bounding boxのサイズに関する loss

detection でよく用いられる smooth-L1 loss

3. 物体のembeddingに関する loss

まずアンカーとなる物体の特徴量を $f^{\top}$ 、それに対して異なるframeの同じ物体の特徴量を $f^{+}$ 、異なる人の特徴量を $f^{-}$ とする。

ベーシックなtriplet lossから考えると、

\mathcal{L}_{triplet} = \max (0, f^{\top}f^{-} - f^{\top}f^{+})

だが、tracking datasetには同じ人のシーンが少ないので、できるだけ利用するため

\mathcal{L}_{triplet} = \sum_i \max (0, f^{\top}f^{-}_i - f^{\top}f^{+})

とする。$f^{+}$ はミニバッチ内で最も難しい同一物体のサンプルで固定する。

だが、これだと収束が不安定かつ遅いので、以下の smooth upper bound of triplet lossにする。

L_{upper} = \log(1+ \sum_i \exp (f^{\top} f_i^{-} - f^{\top} f^{+} ))

ここで $f^{+}$ は固定なので変形して、

\begin{eqnarray}
L_{upper} &=& \log(1+ \exp(- f^{\top} f^{+} ) \sum_i \exp (f^{\top} f_i^{-}) ) \\
&=& \log \left( 1+ \frac{\sum_i \exp (f^{\top} f_i^{-})}{  \exp( f^{\top} f^{+} )} \right) \\
&=& \log \left( \frac{\exp(f^{\top} f^{+} ) + \sum_i \exp (f^{\top} f_i^{-})}{  \exp(f^{\top} f^{+} )} \right) \\
&=& - \log \left( \frac{  \exp(f^{\top} f^{+} )}{\exp(f^{\top} f^{+} ) + \sum_i \exp (f^{\top} f_i^{-})} \right) \\
\end{eqnarray}

と交差エントロピーっぽくなった。なので、最終的にはtriplet loss、smooth upper bound of triplet loss、交差エントロピーの3つを試している。

4. lossの掛け率を自動補正

書きかけ

マッチング

いわゆるトラッキングの第3行程、第4行程に関しては、Kalman Fileter、および Hangalian algorithmを用いる。

実験と結果

1. 他のモデルとの精度比較

他のモデルとMOT-15 datasetでMOTAやFPS等を比較した図は以下。

JDE_img07.png

2-shot系と比べて比肩しうる精度の上、速度はかなり優っている。

2. ablation study

書きかけ

5
7
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
7