4
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

論文まとめ:MOTS: Multi-Object Tracking and Segmentation

Last updated at Posted at 2020-10-12

はじめに

CVPR2019 main conference から以下の論文
[1] P. Voigtlaender, et. al."MOTS: Multi-Object Tracking and Segmentation", CVPR2019
のまとめ

論文へのリンク:
https://www.vision.rwth-aachen.de/media/papers/mots-multi-object-tracking-and-segmentation/MOTS.pdf

projectのサイト:
https://www.vision.rwth-aachen.de/page/mots

Githubの公式コード:
https://github.com/VisualComputingInstitute/TrackR-CNN
MIT license。Tensorflow1系。

デモ動画:
https://www.vision.rwth-aachen.de/media/papers/178/MOTS_video.mp4

概要

  1. multi-object trackingと同時にsegmenatationも行う新たなタスク multi-object tracking and segmentation(MOTS)を定義した
  2. そのタスクのため、KITTI dataset や MOTCallenge dataset に segmentation のアノテーションを加えることで、新たな datasetを生み出した
  3. これの評価のため、新たなメトリクス(sMOTSA)を提案した
  4. multi-object tracking and segmentation のベースラインとなるモデルを提案した

MOTS用のdataset を作成

これまでMOTS用のdatasetがほとんどないため、bounding box に対してsegmentを加える形で新たに作成した。

具体的には、bounding boxで切り取った画像を事前学習したDeepLab等に入れ、segmentを予測させる。これを人出でrefineするような手順。

MOTS用の評価手法を作成

提案モデル TrackR-CNN

以下が提案モデル TrackR-CNN 概要

trackr-cnn_img00.png

TrackR-CNNという名前からも想像つくように、Mask R-CNNをベースとしている。

それとの違いで見ると、

  1. 左側入力が複数フレームに渡るsequentialな画像である。それをCNNで特徴量化する。
  2. これにより出力される各frameの特徴量に対し、3D Convで畳み込む。
  3. これにより出力される時空間な特徴量に対し、Region Proposal Networkで物体候補領域を推定する。
  4. 各物体候補領域に対し、Mask R-CNNと同様にbounding box回帰、クラス分類、セグメントを行うが、これに加えてAssociation embeddingも出力する

Association Head

各物体候補領域に対しAssociation embeddingを出力する部分。

trackr-cnn_img00_1.png

同一物体の判定

ここでは候補領域の物体 $d \in \mathcal{D}$ ごとにベクトル $a_d$ を出力する。

異なるframeにおける任意の物体 $v$、$w$ における距離はユークリッド距離とする。

d ( v, w) := \| v-w \|

この距離の近さで同一物体か否かを判定する。

id 一致に関するloss

物体 d の ground truthの id を $id_e$ とし、以下のtriplet losssを用いる。

Loss_{id} = \frac{1}{| D |} \sum_{d \in \mathcal{D}} \max \left( \max_{e \in \mathcal{D}:id_e = id_d} \| a_e - e_d \| - \min_{e \in \mathcal{D}:id_e \neq id_d} \| a_e - e_d \| + \alpha , 0 \right)

まず、括弧内の1項目は同じidの場合であり、フレーム間に渡って距離が最大となるものとしている。よってこの項が最小化することを期待する。

括弧内の2項目は異なるidの場合であり、フレーム間に渡って距離が最小となるものとしている。これにマイナスをかけるので、この項が最大化することを期待する。

この両者にマージン $\alpha$ を加え、それと0との最大値を採用する。

それを全ての物体に渡って平均化する。

これにより、同じ物体間ではベクトルが近くなり、異なる物体間ではベクトルが遠くなることを期待する。

mask propagation

評価対象としてのMask R-CNNをMOTSタスクに応用するとき、トラッキングのアルゴリズムが必要である。本論文ではマスク・ベースでの類似性を利用している。

t-1時の物体 d におけるマスクとt時の物体 e におけるマスクとの類似度(maskprop)は

{\rm{maskprop}} (mask_d, mask_e) = {\rm IoU}(\mathcal{W} (mask_d), mask_e)

とする。ここで$\mathcal{W}$ はoptical flowによるwarping。

実験と結果

定量的評価

KITTI dataset を使った他のモデルとの MOTS値の比較は以下。

trackr-cnn_img01.png

+MGはTrack R-CNN自体はmaskのheadなしヴァージョンであり、後処理でmaskを推定する。

定性的評価

以下がKITTI datasetのvalidation dataにおける推論例。

trackr-cnn_img02.png

+MGに比べてmask headがある(a), (c)はidswが減っている。

4
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?