物体検出向け教師なし事前学習手法:DETReg: Unsupervised Pretraining with Region Priors for Object Detection
一行で
Transformerによる物体検出向け教師なし事前学習を提案しfine-tuning形式のベンチマークでSoTA
要約
近年、教師なしの事前学習が有効であることが示されており、画像分類では教師あり学習と同等あるいは同等以上の性能が出ている。他方、これらの既存手法は、物体検出におけるオブジェクトのローカライズという側面を扱っておらず、物体検出に適した設計となっていない。本論文では、物体検出のための教師なしの事前学習手法として、領域に関するPriorを組み合わせたTransformerであるDETRegを提案。
手法
提案手法では、物体検出の基礎となる2つのタスク、すなわちローカライゼーションとカテゴライズに相補的な信号を組み合わせて自己教師化する。ローカライズの信号には、Off-the-shelfな手法であるSelective Searchで得られる、pseudo-labelとしてのbboxを使用。オブジェクトの特徴に関する信号には、Contrastive LearningのSoTAであるSwAVを用いる。この2つをBipartite Matchingで組み合わせ、ラベルなしデータで学習。
定量的な評価結果
MS COCOのfine-tuning形式の評価において、通常の物体検出手法としてDeformable DETR、従来の教師なし手法としてMoCoV2、Ablation studyとしてDeformable DETR+SwAVと比較。
fine-tuningデータがフルセットの1%から10%の範囲にかけて提案手法が既存手法よりも明らかに良い結果を示しており、具体的にはデータの割合が1%から5%程度の領域ではMoCoV2等との手法と比較して10pt前後の開きがある。データの割合が増えてくる10%以上では、MoCoV2等の手法との差が縮まってくるが、5pt程度はあり、また、ベースラインと比較すると10pt前後の開きがある。
実装