More than 3 years have passed since last update.

DETReg: Unsupervised Pretraining with Region Priors for Object Detection

Last updated at 2021-08-10Posted at 2021-08-07

物体検出向け教師なし事前学習手法：DETReg: Unsupervised Pretraining with Region Priors for Object Detection

一行で

Transformerによる物体検出向け教師なし事前学習を提案しfine-tuning形式のベンチマークでSoTA

要約

近年、教師なしの事前学習が有効であることが示されており、画像分類では教師あり学習と同等あるいは同等以上の性能が出ている。他方、これらの既存手法は、物体検出におけるオブジェクトのローカライズという側面を扱っておらず、物体検出に適した設計となっていない。本論文では、物体検出のための教師なしの事前学習手法として、領域に関するPriorを組み合わせたTransformerであるDETRegを提案。

手法

提案手法では、物体検出の基礎となる2つのタスク、すなわちローカライゼーションとカテゴライズに相補的な信号を組み合わせて自己教師化する。ローカライズの信号には、Off-the-shelfな手法であるSelective Searchで得られる、pseudo-labelとしてのbboxを使用。オブジェクトの特徴に関する信号には、Contrastive LearningのSoTAであるSwAVを用いる。この2つをBipartite Matchingで組み合わせ、ラベルなしデータで学習。

定量的な評価結果

MS COCOのfine-tuning形式の評価において、通常の物体検出手法としてDeformable DETR、従来の教師なし手法としてMoCoV2、Ablation studyとしてDeformable DETR+SwAVと比較。
fine-tuningデータがフルセットの1%から10%の範囲にかけて提案手法が既存手法よりも明らかに良い結果を示しており、具体的にはデータの割合が1%から5%程度の領域ではMoCoV2等との手法と比較して10pt前後の開きがある。データの割合が増えてくる10%以上では、MoCoV2等の手法との差が縮まってくるが、5pt程度はあり、また、ベースラインと比較すると10pt前後の開きがある。

実装

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up