はじめに
CVPR2019 main conference から以下の論文
[1] P. Voigtlaender, et. al."MOTS: Multi-Object Tracking and Segmentation", CVPR2019
のまとめ
論文へのリンク:
https://www.vision.rwth-aachen.de/media/papers/mots-multi-object-tracking-and-segmentation/MOTS.pdf
projectのサイト:
https://www.vision.rwth-aachen.de/page/mots
Githubの公式コード:
https://github.com/VisualComputingInstitute/TrackR-CNN
MIT license。Tensorflow1系。
デモ動画:
https://www.vision.rwth-aachen.de/media/papers/178/MOTS_video.mp4
概要
- multi-object trackingと同時にsegmenatationも行う新たなタスク multi-object tracking and segmentation(MOTS)を定義した
- そのタスクのため、KITTI dataset や MOTCallenge dataset に segmentation のアノテーションを加えることで、新たな datasetを生み出した
- これの評価のため、新たなメトリクス(sMOTSA)を提案した
- multi-object tracking and segmentation のベースラインとなるモデルを提案した
MOTS用のdataset を作成
これまでMOTS用のdatasetがほとんどないため、bounding box に対してsegmentを加える形で新たに作成した。
具体的には、bounding boxで切り取った画像を事前学習したDeepLab等に入れ、segmentを予測させる。これを人出でrefineするような手順。
MOTS用の評価手法を作成
略
提案モデル TrackR-CNN
以下が提案モデル TrackR-CNN 概要
TrackR-CNNという名前からも想像つくように、Mask R-CNNをベースとしている。
それとの違いで見ると、
- 左側入力が複数フレームに渡るsequentialな画像である。それをCNNで特徴量化する。
- これにより出力される各frameの特徴量に対し、3D Convで畳み込む。
- これにより出力される時空間な特徴量に対し、Region Proposal Networkで物体候補領域を推定する。
- 各物体候補領域に対し、Mask R-CNNと同様にbounding box回帰、クラス分類、セグメントを行うが、これに加えてAssociation embeddingも出力する
Association Head
各物体候補領域に対しAssociation embeddingを出力する部分。
同一物体の判定
ここでは候補領域の物体 $d \in \mathcal{D}$ ごとにベクトル $a_d$ を出力する。
異なるframeにおける任意の物体 $v$、$w$ における距離はユークリッド距離とする。
d ( v, w) := \| v-w \|
この距離の近さで同一物体か否かを判定する。
id 一致に関するloss
物体 d の ground truthの id を $id_e$ とし、以下のtriplet losssを用いる。
Loss_{id} = \frac{1}{| D |} \sum_{d \in \mathcal{D}} \max \left( \max_{e \in \mathcal{D}:id_e = id_d} \| a_e - e_d \| - \min_{e \in \mathcal{D}:id_e \neq id_d} \| a_e - e_d \| + \alpha , 0 \right)
まず、括弧内の1項目は同じidの場合であり、フレーム間に渡って距離が最大となるものとしている。よってこの項が最小化することを期待する。
括弧内の2項目は異なるidの場合であり、フレーム間に渡って距離が最小となるものとしている。これにマイナスをかけるので、この項が最大化することを期待する。
この両者にマージン $\alpha$ を加え、それと0との最大値を採用する。
それを全ての物体に渡って平均化する。
これにより、同じ物体間ではベクトルが近くなり、異なる物体間ではベクトルが遠くなることを期待する。
mask propagation
評価対象としてのMask R-CNNをMOTSタスクに応用するとき、トラッキングのアルゴリズムが必要である。本論文ではマスク・ベースでの類似性を利用している。
t-1時の物体 d におけるマスクとt時の物体 e におけるマスクとの類似度(maskprop)は
{\rm{maskprop}} (mask_d, mask_e) = {\rm IoU}(\mathcal{W} (mask_d), mask_e)
とする。ここで$\mathcal{W}$ はoptical flowによるwarping。
実験と結果
定量的評価
KITTI dataset を使った他のモデルとの MOTS値の比較は以下。
+MGはTrack R-CNN自体はmaskのheadなしヴァージョンであり、後処理でmaskを推定する。
定性的評価
以下がKITTI datasetのvalidation dataにおける推論例。
+MGに比べてmask headがある(a), (c)はidswが減っている。