RT-DETR: DETRs Beat YOLOs on Real-time Object Detection
概要
この記事では、CVPR 2024で発表された「DETRs Beat YOLOs on Real-time Object Detection」論文について解説します。この研究では、エンドツーエンドの物体検出モデルであるDETRをリアルタイム処理に適用可能にした新しいモデル、RT-DETRを提案しています。
はじめに
リアルタイム物体検出は、自動運転やロボット視覚など多くの応用分野で重要な技術です。従来、YOLOシリーズが高速性能で注目されてきましたが、NMS(Non-Maximum Suppression)後処理が必要なことが課題でした。一方、DETRはエンドツーエンドの学習が可能ですが、計算コストが高くリアルタイム処理には適していませんでした。
図1: 従来手法とRT-DETRの比較
図1は、YOLOv5、YOLOv8、そしてRT-DETRの速度と精度のトレードオフを示しています。RT-DETRが両面で優れていることがわかります。
提案手法
RT-DETRは以下の主要な特徴を持ちます:
- 効率的なハイブリッドエンコーダ
- トップKクエリ選択
- 柔軟なデコーダ構造
図2: RT-DETRのアーキテクチャ
図2はRT-DETRの全体アーキテクチャを示しています。バックボーン、ハイブリッドエンコーダ、クエリ選択、デコーダの流れがわかります。
効率的なハイブリッドエンコーダ
AIFIとCCFFという2つのモジュールで構成されています:
- AIFI: 高レベル特徴マップにself-attention機構を適用
- CCFF: 異なるスケールの特徴マップを融合
トップKクエリ選択
エンコーダ出力から最も確信度の高いK個のクエリを選択します:
_, topk_ind = torch.topk(enc_outputs_class.max(-1).values, self.num_queries, dim=1)
柔軟なデコーダ構造
デコーダ層数を動的に調整可能で、速度と精度のバランスを柔軟に変更できます。
評価実験
図3: COCO val2017での性能比較
図3はCOCO val2017データセットでのRT-DETRと他のモデルの性能比較を示しています。
主な結果:
- RT-DETR-R50: 53.1% AP, 108 FPS
- RT-DETR-R101: 54.3% AP, 74 FPS
YOLOv8-Lとの比較:
- 精度: +0.2% AP
- 速度: +52.1% FPS
同じ精度で速度が2倍になっていることがわかりますね。
結論
RT-DETRは、DETRアーキテクチャをリアルタイム物体検出に適用することに成功し、YOLOシリーズを上回る性能を達成しました。効率的なエンコーダ設計と動的クエリ選択により、高速かつ高精度な検出が可能になりました。
今後の課題として、小物体検出の精度向上や、より多様な環境での評価が挙げられます。RT-DETRは、自動運転やロボット視覚など、リアルタイム性能が求められる多くの分野での応用が期待されます。
参考文献: 「DETRs Beat YOLOs on Real-time Object Detection」, 著者 [Yian Zhao, Wenyu Lv, et al.], 掲載会議 [CVPR] 2024.