More than 3 years have passed since last update.

論文まとめ：MOTS: Multi-Object Tracking and Segmentation

Last updated at 2020-10-12Posted at 2020-10-12

はじめに

CVPR2019 main conference から以下の論文
[1] P. Voigtlaender, et. al."MOTS: Multi-Object Tracking and Segmentation", CVPR2019
のまとめ

論文へのリンク:
https://www.vision.rwth-aachen.de/media/papers/mots-multi-object-tracking-and-segmentation/MOTS.pdf

projectのサイト:
https://www.vision.rwth-aachen.de/page/mots

Githubの公式コード:
https://github.com/VisualComputingInstitute/TrackR-CNN
MIT license。Tensorflow1系。

デモ動画:
https://www.vision.rwth-aachen.de/media/papers/178/MOTS_video.mp4

概要

multi-object trackingと同時にsegmenatationも行う新たなタスク multi-object tracking and segmentation（MOTS）を定義した
そのタスクのため、KITTI dataset や MOTCallenge dataset に segmentation のアノテーションを加えることで、新たな datasetを生み出した
これの評価のため、新たなメトリクス（sMOTSA）を提案した
multi-object tracking and segmentation のベースラインとなるモデルを提案した

MOTS用のdataset を作成

これまでMOTS用のdatasetがほとんどないため、bounding box に対してsegmentを加える形で新たに作成した。

具体的には、bounding boxで切り取った画像を事前学習したDeepLab等に入れ、segmentを予測させる。これを人出でrefineするような手順。

MOTS用の評価手法を作成

略

提案モデル TrackR-CNN

以下が提案モデル TrackR-CNN 概要

TrackR-CNNという名前からも想像つくように、Mask R-CNNをベースとしている。

それとの違いで見ると、

左側入力が複数フレームに渡るsequentialな画像である。それをCNNで特徴量化する。
これにより出力される各frameの特徴量に対し、3D Convで畳み込む。
これにより出力される時空間な特徴量に対し、Region Proposal Networkで物体候補領域を推定する。
各物体候補領域に対し、Mask R-CNNと同様にbounding box回帰、クラス分類、セグメントを行うが、これに加えてAssociation embeddingも出力する

Association Head

各物体候補領域に対しAssociation embeddingを出力する部分。

同一物体の判定

ここでは候補領域の物体 $d \in \mathcal{D}$ ごとにベクトル $a_d$ を出力する。

異なるframeにおける任意の物体 $v$、$w$ における距離はユークリッド距離とする。

d ( v, w) := \| v-w \|

この距離の近さで同一物体か否かを判定する。

id 一致に関するloss

物体 d の ground truthの id を $id_e$ とし、以下のtriplet losssを用いる。

Loss_{id} = \frac{1}{| D |} \sum_{d \in \mathcal{D}} \max \left( \max_{e \in \mathcal{D}:id_e = id_d} \| a_e - e_d \| - \min_{e \in \mathcal{D}:id_e \neq id_d} \| a_e - e_d \| + \alpha , 0 \right)

まず、括弧内の１項目は同じidの場合であり、フレーム間に渡って距離が最大となるものとしている。よってこの項が最小化することを期待する。

括弧内の２項目は異なるidの場合であり、フレーム間に渡って距離が最小となるものとしている。これにマイナスをかけるので、この項が最大化することを期待する。

この両者にマージン $\alpha$ を加え、それと０との最大値を採用する。

それを全ての物体に渡って平均化する。

これにより、同じ物体間ではベクトルが近くなり、異なる物体間ではベクトルが遠くなることを期待する。

mask propagation

評価対象としてのMask R-CNNをMOTSタスクに応用するとき、トラッキングのアルゴリズムが必要である。本論文ではマスク・ベースでの類似性を利用している。

t-1時の物体 d におけるマスクとt時の物体 e におけるマスクとの類似度（maskprop）は

{\rm{maskprop}} (mask_d, mask_e) = {\rm IoU}(\mathcal{W} (mask_d), mask_e)

とする。ここで$\mathcal{W}$ はoptical flowによるwarping。

実験と結果

定量的評価

KITTI dataset を使った他のモデルとの MOTS値の比較は以下。

+MGはTrack R-CNN自体はmaskのheadなしヴァージョンであり、後処理でmaskを推定する。

定性的評価

以下がKITTI datasetのvalidation dataにおける推論例。

+MGに比べてmask headがある(a), (c)はidswが減っている。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up