経緯
最近、object trackingに触れる機会があったのですが、評価データや評価方法について気になったので調べてみました。
short-termとlong-termについて
object detectionは、short-termとlong-termで手法が分かれています。short-termは短時間で、フレームから対象物が消えたりはしないシチュエーションです。long-termはt長時間で、**フレームから対象物が消えたります。現在は、実世界のシチュエーションにより近いlong-termの研究が盛んになっています。**そこで今回はlong-termの評価について調査した結果をまとめました。フレーム数は約15万。
主な評価データ
多くの論文で用いられているデータセットは下の2つでした。
1. VOT2018-LT
visual object tracking 2018 long termの略です。2013年ぐらいから毎年Object trackin用のデータセットが提供されています。人や車、自転車、動物など様々な物体が対象です。RGB画像(30fpsが多い)とbounding boxが提供されています。人と乗り物多めです。LTとつくものはlong term用のデータセットで、targetが一度フレームから消えたりするデータがあります。
2. LaSOT
最近作成されたデータセット。400万枚近いフレーム数と80以上のクラス数が特徴。
評価指標
VOTの評価指標はPrecision、Recall、F-scoreが用いられています。詳しくはこちらに書いてあります。Precisionは以下の式で求められています。Ω(At(τθ), Gt)がフレームごとのprediction(At)とground truth(Gt)とのIoUです。τθはしきい値で、主に0.5が使われています。θtは確信度です。なのでしきい値以下の確信度の場合、At(θt)は0になります。Npは、物体があると推論されたフレームの数です。
RecallはPrecisionとほとんど同じですが、Npの代わりにNgを用いています。Ngは物体がフレームの中にあるデータの数です。
上の式で求めたPrとReを使って、F-scoreを算出します。
まとめ
Object trackingは、今結構盛り上がっている分野のようです。物体検出自体の精度が天井に近づきつつあるからからもしれません。あと、中国の研究者の論文が多いなと感じました。社会の様々なところで使われているからかもしれませんね(笑)。
間違いや質問、ご意見等ありましたらお気軽にコメントください。頑張って答えますので(笑)。