4
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

DiffusionDet: Diffusion Model for Object Detectionを読んだ

Posted at

DiffusionDet: Diffusion Model for Object Detectionを読んだので書き散らし

論文の情報

タイトル:DiffusionDet: Diffusion Model for Object Detection
カンファ:No
著者:Shoufa Chen, Peize Sun, Yibing Song, Ping Luo
所属:The University of Hong Kong & Tencent AI Lab
論文:https://arxiv.org/abs/2211.09788
著者実装:https://github.com/ShoufaChen/DiffusionDet

ざっくりいうと

Diffusion modelを利用した物体検出モデル。
物体検出タスクをランダムなbounding box(=ノイズ)から正しいbounding boxへの過程として再定義することによって物体検出問題を解こうとした

背景

  • bounding boxを検出することを目標とする物体検出では、DeepLerning以前(Viola-Jonesの顔検出の時代)から、Anchor Boxにより最初に大量のbouding box候補を生成している。その中で、bounding box候補の大きさを予め決定したり、絞り込み手法を効率化することで検出タスクを解決しようとしてきた。
  • 最近はAttentionを用いてNMSを不要にしたDETRやSparceR-CNNに代表されるように、learnable queryを用いたend-to-endな物体検出モデルが出てきている。
    image.png

手法

  • 学習可能なパラメータを持たない純粋なランダムbounding box(=bounding boxにおけるノイズ)から出発し、ボックスの位置(中心座標)と大きさ(幅と高さ)のパラメータを調整することでbounding boxを作成するnoise to box手法をとる
  • これは概念的にdiffusionモデルと似ているが、先行研究のようなSemantic Segmentation的なものではない。本手法は集合予測問題を拡散モデル的に解く
    image.png
  • 画像から特徴表現を抽出するimage encoderと、特徴表現からnoise-to-boxタスクを解くdetection decoder
    image.png
  • image encoderはResNet、SwinにFPNを利用
  • noise-to-box detection decoderは画像(Batch, RGB)とbounding box(Batch, number_of_box, center, w, h)を入力として受け取り、boxのpaddingを行って拡散モデルに突っ込む

難易度高いな

評価

  • DETRやSparce R-CNNでは推論に用いる画像中のobject queryの数が大幅に変わった場合に性能の低下が発生するが、DiffusionDetはそうでもない。つまり、一度の学習で複数のシナリオに利用可能
    image.png
    image.png
  • 性能は既存のアルゴリズム同等かそれ以上。DETR系が苦手な小さい物体にもでも性能低下なし。
    image.png
  • queryの数が少なくても、ステップ数を増やすことで性能向上が可能
    image.png
  • ablation experiments
     全体的によくわからん。TBD。
    • signal scaling
      拡散モデル特有っぽい?スケーリングファクターが拡散過程のSNRを制御するらしい。スケーリングファクターが普通の画像生成タスクより大きいらしい。よくわからん。推論対象が画像とは違って4次元になるからと言っている。
    • GT boxのpadding

まとめと感想

次読むなら

Jacob Austin, Daniel D Johnson, Jonathan Ho, Daniel Tarlow, and Rianne van den Berg.
Structured denoising diffusion models in discrete state-spaces.
Advances in Neural Information Processing Systems, 34:17981–17993, 2021.
https://arxiv.org/abs/2107.03006
Dmitry Baranchuk, Andrey Voynov, Ivan Rubachev, Valentin Khrulkov, and Artem Babenko.
Label-efficient semantic segmentation with diffusion models
In International Conference on Learning Representations, 2022.
https://arxiv.org/abs/2112.03126
Peize Sun, Rufeng Zhang, Yi Jiang, Tao Kong, Chenfeng Xu, Wei Zhan, Masayoshi Tomizuka, Lei Li, Zehuan Yuan, Changhu Wang, et al.
Sparse r-cnn: End-to-end object detection with learnable proposals.
In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 14454–14463, 2021.
https://arxiv.org/abs/2011.12450

4
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?