2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【CVPR2024】リアルタイムオープン語彙物体検出の時代到来?(YOLO-World: Real-Time Open-Vocabulary Object Detection)

Posted at

YOLO-World: Real-Time Open-Vocabulary Object Detection

(余談)
「YOLO-World」...プログラミング言語の入門時によく用いられる「Hello World」みたいで名前が面白いですよね(著者絶対狙ってる)...

概要

この記事では、CVPR 2024に採択された論文「YOLO-World: Real-Time Open-Vocabulary Object Detection」について解説します。この研究は、従来のYOLO(You Only Look Once)シリーズをオープン語彙物体検出に拡張し、高速かつ柔軟な検出を実現しています。

はじめに

物体検出は、自動運転やロボティクスなど多くの応用分野で重要な役割を果たしています。しかし、従来のモデルは事前定義されたカテゴリーにのみ対応しており、新しいオブジェクトや未知のカテゴリーを検出することができませんでした。YOLO-Worldは、この制限を克服し、実世界での多様なドメインに対応できる新しいモデルを提案しています。

図1: YOLO-Worldの概念図

IMG_1362.jpeg

上図は、YOLO-Worldがどのようにオープン語彙検出を実現しているかを示しています。従来のYOLOと異なり、テキスト入力を受け取り、柔軟な物体検出が可能になっています。

提案手法

YOLO-Worldの主要な特徴は以下の通りです:

  1. 再パラメータ化可能なビジョン-言語パス集約ネットワーク(RepVL-PAN)
  2. 領域-テキスト対比学習による事前学習
  3. 効率的な推論のためのプロンプト後検出パラダイム

図2: YOLO-Worldの構造

IMG_1363.jpeg

図2は、YOLO-Worldの全体的な構造を示しています。RepVL-PANがどのようにテキスト特徴と画像特徴を結合しているかがわかります。

提案手法の詳細

YOLO-Worldは、従来のYOLOアーキテクチャを基盤としつつ、以下の主要な技術革新を導入しています:

  1. 再パラメータ化可能なビジョン-言語パス集約ネットワーク(RepVL-PAN)

    • 画像特徴とテキスト特徴を効果的に結合
    • テキストガイドCSPLayer (T-CSPLayer)を導入し、言語情報を画像特徴に注入
    • 画像プーリング注意(I-Pooling Attention)により画像認識テキスト埋め込みを強化
    • 推論時に再パラメータ化可能で、効率的な展開が可能
  2. 領域-テキスト対比学習

    • 大規模データセットを用いた事前学習
    • 検出データ、グラウンディングデータ、画像-テキストデータを統合
    • 領域-テキストペアを用いた対比損失で学習
  3. プロンプト後検出パラダイム

    • ユーザーのプロンプトを事前にエンコードしてオフライン語彙を構築
    • 推論時にプロンプトを再エンコードせず、効率的に検出を実行

図3: RepVL-PANの構造

IMG_1365.jpeg

図3は、RepVL-PANの詳細な構造を示しています。テキストガイドCSPLayerと画像プーリング注意がどのように組み込まれているかがわかります。

  1. テキストエンコーダー

    • CLIP事前学習済みTransformerテキストエンコーダーを採用
    • 入力テキストをテキスト埋め込みにエンコード
  2. テキスト対比ヘッド

    • オブジェクト-テキスト類似度を計算
    • L2正規化とアフィン変換を用いて安定した学習を実現
  3. オンライン/オフライン語彙

    • 学習時はモザイクサンプルごとにオンライン語彙を構築
    • 推論時はオフライン語彙を用いて効率化

評価実験

YOLO-Worldの性能評価は、主にLVISとCOCOデータセットで行われました。

図4: LVISデータセットでの性能比較

IMG_1364.jpeg

図4は、LVISデータセットでのYOLO-Worldと他の最先端手法との性能比較を示しています。YOLO-Worldが精度と速度の両面で優れていることがわかります。

主な結果:

  • LVISデータセットでのゼロショット評価:35.4 AP @ 52.0 FPS
  • COCOデータセットでの微調整後:53.3 AP @ 156 FPS

結論

YOLO-Worldは、高速性と柔軟性を兼ね備えたオープン語彙物体検出器として、実世界応用に大きな可能性を示しています。今後は、より複雑なシーン理解やマルチタスク学習への拡張が期待されます。

批判的分析

YOLO-Worldは印象的な成果を上げていますが、以下の点についてさらなる検証が必要と考えられます:

  1. 異なるドメインへの転移性能
  2. 長期運用での安定性
  3. 非常に稀なカテゴリーに対する性能

これらの課題に取り組むことで、YOLO-Worldの実用性がさらに向上すると期待されます。


参考文献: 「YOLO-World: Real-Time Open-Vocabulary Object Detection」, 著者 [Tianheng Cheng, Lin Song, Yixiao Ge, Wenyu Liu, Xinggang Wang, Ying Shan], 掲載会議 [CVPR] 2024.​​​​​​​​​​​​​​​​

2
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?