YOLOv10: リアルタイムのEnd-to-Endオブジェクト検出手法

Posted at 2024-05-26

はじめに

なんJ式論文解説はこちら。

オブジェクト検出とは、画像内の物体の位置と種類を特定するタスクです。以下のような応用先があります。

多くの応用では、高速な処理が求められます。例えば、自動運転車では遅延が致命的な事故につながる恐れがあります。したがって、高精度を維持しつつ、リアルタイムに動作するオブジェクト検出手法の開発が重要な課題となっています。

既存のオブジェクト検出手法には以下のような課題がありました。

提案手法の主なアイデアは、図2に示すように、2つの検出ヘッドを用いることです。

学習時は2つのヘッドを同時に学習し、推論時はOne-to-oneヘッドのみを使用します。これにより、NMSが不要となり、高速でEnd-to-Endな推論が可能になります。

さらに、Consistent Matching Metricを導入することで、2つのヘッドの学習の整合性を高めています。具体的には、One-to-oneヘッドの教師信号が、One-to-manyヘッドの最適解に近づくように設計されています。

提案手法では、YOLOアーキテクチャの各コンポーネントを効率性と精度の観点から最適化しています。

軽量な分類ヘッド: 回帰ヘッドに比べて分類ヘッドの計算量が大きいことに着目し、Depthwise Separable Convolutionを用いて軽量化。
Spatial-channel decoupled downsampling: ダウンサンプリングの際、チャネル数の増加と解像度の削減を分離することで、効率的な特徴量の圧縮を実現。
Rank-guided block design: 特徴量のランクに基づいて、冗長な計算の多いブロックをよりコンパクトなものに置き換える。

Large-kernel convolution: 受容野を広げるために、一部の層でカーネルサイズの大きな畳み込みを導入。
Partial self-attention (PSA): Self-attentionの計算コストを抑えつつ、グローバルな特徴の統合を可能にするPSAモジュールを提案。

COCOデータセットでの評価実験により、以下のような結果が得られました。

提案手法は、推論速度を大きく向上させつつ、高い精度を維持することに成功しました。これにより、リアルタイム性が重要な応用でのオブジェクト検出の実用性が大きく高まると期待されます。

NMSが不要なEnd-to-Endの学習を実現したことで、ユーザーにとっての利便性が向上します。後処理のためのハイパーパラメータ調整が不要になり、システムの実装が容易になると考えられます。

効率性と精度を重視したモデル設計の各アイデアは、オブジェクト検出以外のタスクにも応用可能と考えられます。本研究で得られた知見は、様々な深層学習モデルの設計に役立つでしょう。