DiffusionDet: Diffusion Model for Object Detectionを読んだので書き散らし
論文の情報
タイトル:DiffusionDet: Diffusion Model for Object Detection
カンファ:No
著者:Shoufa Chen, Peize Sun, Yibing Song, Ping Luo
所属:The University of Hong Kong & Tencent AI Lab
論文:https://arxiv.org/abs/2211.09788
著者実装:https://github.com/ShoufaChen/DiffusionDet
ざっくりいうと
Diffusion modelを利用した物体検出モデル。
物体検出タスクをランダムなbounding box(=ノイズ)から正しいbounding boxへの過程として再定義することによって物体検出問題を解こうとした
背景
- bounding boxを検出することを目標とする物体検出では、DeepLerning以前(Viola-Jonesの顔検出の時代)から、Anchor Boxにより最初に大量のbouding box候補を生成している。その中で、bounding box候補の大きさを予め決定したり、絞り込み手法を効率化することで検出タスクを解決しようとしてきた。
- 最近はAttentionを用いてNMSを不要にしたDETRやSparceR-CNNに代表されるように、learnable queryを用いたend-to-endな物体検出モデルが出てきている。
手法
- 学習可能なパラメータを持たない純粋なランダムbounding box(=bounding boxにおけるノイズ)から出発し、ボックスの位置(中心座標)と大きさ(幅と高さ)のパラメータを調整することでbounding boxを作成するnoise to box手法をとる
- これは概念的にdiffusionモデルと似ているが、先行研究のようなSemantic Segmentation的なものではない。本手法は集合予測問題を拡散モデル的に解く
- 画像から特徴表現を抽出するimage encoderと、特徴表現からnoise-to-boxタスクを解くdetection decoder
- image encoderはResNet、SwinにFPNを利用
- noise-to-box detection decoderは画像(Batch, RGB)とbounding box(Batch, number_of_box, center, w, h)を入力として受け取り、boxのpaddingを行って拡散モデルに突っ込む
難易度高いな
評価
- DETRやSparce R-CNNでは推論に用いる画像中のobject queryの数が大幅に変わった場合に性能の低下が発生するが、DiffusionDetはそうでもない。つまり、一度の学習で複数のシナリオに利用可能
- 性能は既存のアルゴリズム同等かそれ以上。DETR系が苦手な小さい物体にもでも性能低下なし。
- queryの数が少なくても、ステップ数を増やすことで性能向上が可能
- ablation experiments
全体的によくわからん。TBD。- signal scaling
拡散モデル特有っぽい?スケーリングファクターが拡散過程のSNRを制御するらしい。スケーリングファクターが普通の画像生成タスクより大きいらしい。よくわからん。推論対象が画像とは違って4次元になるからと言っている。 - GT boxのpadding
- signal scaling
まとめと感想
- 一応画像生成と概念的に近いSemantic Segmentaitonは拡散モデルあるっぽい
https://arxiv.org/abs/2112.03145
https://arxiv.org/abs/2205.11423
https://arxiv.org/abs/2210.06366 - これは結構すごいものが出てきたかもしれない。
- でもこれ、画像生成というよりもっと根本的な拡散モデルを理解しないといけない気がする。気が重い。
次読むなら
Jacob Austin, Daniel D Johnson, Jonathan Ho, Daniel Tarlow, and Rianne van den Berg.
Structured denoising diffusion models in discrete state-spaces.
Advances in Neural Information Processing Systems, 34:17981–17993, 2021.
https://arxiv.org/abs/2107.03006
Dmitry Baranchuk, Andrey Voynov, Ivan Rubachev, Valentin Khrulkov, and Artem Babenko.
Label-efficient semantic segmentation with diffusion models
In International Conference on Learning Representations, 2022.
https://arxiv.org/abs/2112.03126
Peize Sun, Rufeng Zhang, Yi Jiang, Tao Kong, Chenfeng Xu, Wei Zhan, Masayoshi Tomizuka, Lei Li, Zehuan Yuan, Changhu Wang, et al.
Sparse r-cnn: End-to-end object detection with learnable proposals.
In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 14454–14463, 2021.
https://arxiv.org/abs/2011.12450