はじめに
論文を読んだので詳細をまとめる。
指摘、議論大歓迎
情報
後日追加予定
詳細
Motivation
★motion model-based Multi Obejct Trackingの開発を目的としている。
ただしmotion model-based MOT(特にSORT)にはKalman filterを用いていることにより課題が3点あると考えられている。
- 高いframe rateを要求するため、位置推定時に乗るノイズの影響を増大させる。
- 未検出であってもKalman filterが軌道予測をし続けるので、実測値との誤差が増える。
- 近年の物体検出器の発展を考えるとKalman filterのみで軌道予測するのは現実的ではない(実測値を使えればいいのにSORTでは考慮されていない)。
提案手法
★Predictionに頼った軌道予測ではなく、実測値を基に更新された軌道予測により、従来では難しかった複雑でかつocculusionが発生する状況にロバストなmotion model-based MOTを作成した(Observation-Centric SORT)。
- Observation-Centric Re-Update(ORU)
- Observation-Centric Momentum(OCM)
実験結果
Datasets
- MOT17
- MOT20
- KITTI
- DanceTrack
-
CroHD
- 群衆Trackingのdatasetだが詳細不明
detectorはYOLOX、学習はByteTrackで実施
なぜByteTrackで学習させたweightじゃないとだめなのか不明、他のモデルでも同様に学習器としてByteTrackが用いられている。
Benchmark Result
最新の情報はPaper with CodeのMultiple Object TrackingやMOTChallengeを見てもらえると参考になる
評価指標のうちHOTAがMOTを網羅した評価指標と呼ばれており、MOT ChallengeではHOTAが他のモデルに比べ高い結果を得られた。
複雑な動きをするDanceTrackのdatasetに関しては差が顕著に表れている。
今回検討したmodulesの評価をしたのが以下の結果、OCMがDanceのような複雑な動きをする対象を追跡するのに役に立つことが実験より分かった。