Progressive End-to-End Object Detection in Crowded Scenes
概要
この論文では、混雑したシーンでの物体検出を改善するための新しいクエリベースの検出フレームワークを提案している.従来のクエリベースの検出器は、以下の二つの課題に直面していた:
- 一つの物体に対して複数の予測がされる
- デコードステージの深さが増すにつれて性能が飽和する
これらの問題を解決するために、受け入れられる予測を生成しやすいクエリを選択し、その後のノイズの多いクエリを以前に受け入れられた予測に基づいて精緻化する進行的予測方法を提案している.この方法を用いることで、クエリベースの検出器の混雑したシーンにおける性能が大幅に向上することが実験で示された.
従来手法との比較
従来のクエリベースの検出器は、特に混雑したシーンで以下の課題に直面していた:
- 複数の予測: 一つの物体に対して複数の予測が生成され、誤検出が増える
- 性能の飽和: デコードステージの深さが増すにつれて性能が飽和し、改善が難しくなる
新規性
この論文の新規性は以下の点にある:
- 予測セレクタ: 高い信頼度の予測を生成するクエリを選択し、残りのノイズの多いクエリをさらに精緻化する
- 関係情報抽出器: ノイズの多いクエリがターゲットが検出されたかどうかを認識できるように、受け入れられた予測との関係をモデル化する
- クエリアップデータ: ローカルセルフアテンションを実行し、空間的に関連する近隣のクエリのみと対話することで、ノイズの多いクエリの特徴をさらに精緻化する
- ラベル割り当て: 受け入れられた予測と精緻化されたノイズの多いクエリのサンプルを段階的に割り当てる新しい一対一のラベル割り当てルールを導入する
方法論
- 予測セレクタ: 高い信頼度の予測を生成するクエリを選択し、残りのノイズの多いクエリをさらに精緻化する
- 関係情報抽出器: 受け入れられた予測との関係をモデル化し、ノイズの多いクエリがターゲットが検出されたかどうかを認識できるようにする
- クエリアップデータ: ローカルセルフアテンションを実行し、空間的に関連する近隣のクエリのみと対話することで、ノイズの多いクエリの特徴をさらに精緻化する
- ラベル割り当て: 受け入れられた予測と精緻化されたノイズの多いクエリのサンプルを段階的に割り当てる新しい一対一のラベル割り当てルールを導入する
モデルの処理の流れ
-
入力画像が与えられる
-
FeaturePyramidNetwork(FPN)または、Transformerを通り、画像の特徴が抽出される。複数スケールでの特徴抽出を行う
-
初期クエリ生成:特徴マップに基づいて初期クエリを生成。物体の候補領域を示すもので、各クエリが特定の物体を表現するように設計されている
-
Decording:
- Previous Decording Stages:クエリが特徴マップと相互作用し、物体の予測を行う。各ステージでクエリは更新され、物体のBBoxとそのクラスを予測する
- RoIAlignPool:前のステージのBBoxに基づいて、特徴マップからRegion of Interest (ROI) を抽出
- MultiHeadAttention:クエリに対してSelfAttentionを適用し、クエリの特徴を更新する
- DynConv:DynamicConvolutionのこと。更新されたクエリとROI特徴を用いて、次のステージのクエリを生成する
- BBox予測:現在のステージでのバウンディングボックスを予測する
-
The final Decording
- Prediction Selector:最終ステージでは、高い信頼度を持つ予測を選択肢、残りをノイズクエリとして分類する。
- RelatinoInformarionExtractor:ノイズクエリが受け入れられたクエリとの関係をモデル化し、ターゲットがすでに検出されているか認識させる。▶これによって、不要な重複検出を減少させる
- ノイズクエリと受け入れられたクエリ感の空間的関係を抽出し、ジオメトリ関係特徴を生成する
- QueryUpdatar:ノイズクエリの特徴を更新するための新しいlocal self attentionメカニズムを適用する。各クエリがその近隣のクエリと飲み相互作用するように設計されている
- Label Assiginment:一対一のクエリとノイズクエリに対して、一対一のラベルの割り当てを行う。これにより、ユニークなターゲットに対応するようになる
- 出力:最終的なDecordingStageを経て、各クエリが最終的な物体のBBoxとクラスを出力する
結果と評価
この手法を用いることで、Sparse RCNNは混雑したシーンでの検出性能が大幅に向上した.具体的には、CrowdHumanデータセットにおいて、Sparse RCNNは92.0%のAP、41.4%のMR−2、83.2%のJIを達成し、混雑シナリオに特化したボックスベースの手法MIPを上回る性能を示した.さらに、この手法はCityPersonsやCOCOのような中程度および軽度の混雑したデータセットでも一貫して改善をもたらした.
結論
この論文は、混雑したシーンでの物体検出を大幅に改善するための新しいクエリベースの検出フレームワークを提案している.進行的予測方法と新しい関係情報抽出器、クエリアップデータ、および一対一のラベル割り当てルールを導入することで、複数の予測や性能の飽和といった従来の課題を克服している.この手法により、Sparse RCNNやdeformable DETRのようなクエリベースの検出器が、混雑したシーンだけでなく中程度および軽度の混雑シーンでも一貫して高性能を発揮することが確認された.