この記事について
物体認識系技術の勉強として学んだ内容のざっくりまとめ。
多くの画像は論文(HTML版arXiv)の画像へのリンク。
YOLO-World: Real-Time Open-Vocabulary Object Detection
オープンボキャブラリ物体検出に関する論文。
論文 プロジェクトページ
概要情報
分野
物体検出 セグメンテーション
主な成果
- 高速なオープンボキャブラリ物体検出モデル YOLO-World を提案
- RepVL-PAN
- Region-Text Contrastive Loss(領域とテキストの対照損失)
- 擬似ラベル生成による大規模事前学習
- 推論専用の効率化戦略
モデル概要
-
YOLOv8ベースの視覚情報とCLIPのText Encoderの言語情報をRepVL-PANで統合
YOLOv8のアーキテクチャ図 - 従来のOV物体検出モデル(Grounding DINO等)は推論時間が課題
- 精度を維持して高速化
用語メモ
用語 | 説明 |
---|---|
オープンボキャブラリ物体検出 | 検出対象の物体を任意のテキストで自由に指定する |
grounding | 抽象的なモノを具体的なモノに結びつけること 言語情報を画像中の物体に結びつける |
※以降、オープンボキャブラリをOVと記載
学ぶモチベーション
自動アノテーションでの利用を想定したポテンシャル確認
- YOLO-World が実用的なレベルの能力を持っているかの確認
- 疑似ラベル関連の内容が自動アノテーションの参考になれば
課題感と期待
- 課題
- アノテーションの効率化は多くのプロジェクトで課題になりがち
- 既存モデルをアノテーションに利用する取り組みは各所でされているが、デファクトスタンダードな方法はない印象
- GPT-4o等のLLM(VLM)はBOXの位置やサイズが不正確
(YOLO-Worldを調べている時点で、自身でのGemini2.0検証は未実施)
- 期待
- OVならクラス定義を自由に変更でき、可用性の高い自動アノテーションモデルとして活用できる
内容
RepVL-PAN
Re-parameterizable Vision-Language PAN
PAN: Path Aggregation Network
- 役割: マルチスケール特徴を集約
- スケール変化に強くなり、小さなオブジェクトを検出しやすくなる
- 構造: トップダウンパスとボトムアップパス
- 高レベルな抽象的特徴を下層に伝播するトップダウンパス
- 低レベルな特徴を上層に伝播するボトムアップパス
- 活用: YOLOシリーズなど、さまざまな物体検出モデルで活用されている
- 役割: 視覚情報と言語情報を統合する
- 構造:
- T-CSPLayer
- Text-guided CSPLayer
- 画像特徴(C3~C5)とテキスト特徴の行列積にmaxとシグモイド適用
- テキスト特徴に類似する画像特徴が残る
- I-Pooling Attention
- Image-Pooling Attention
- 各スケールの視覚特徴(T-CSPLayer由来)を結合
- Multi-Head Attentionで視覚特徴とテキスト特徴の相関を計算
- 画像特徴を反映したテキスト特徴が誕生
- T-CSPLayer

推論時の再パラメータ化
- 従来の物体検出器と一般的なOV物体検出器を混ぜたような使い勝手
- 検出対象とするプロンプトを事前にセット(テキスト埋め込みを事前に作成)
- T-CSPLayerとI-Pooling Attentionの簡易化
疑似ラベルの生成と学習での利用
領域テキストペア(疑似ラベル)生成の流れ
以下の流れで24万枚以上をラベリング
- 画像テキストデータセットから物体の名詞を抽出
- GLIPによる領域テキストペアの仮提案
- CLIPベースフィルタリング
領域テキストペア(疑似ラベル)生成の流れ
CLIPベースフィルタリング
- 画像テキストスコアの計算
- CLIPで画像とキャプションの類似度を計算
- 領域テキストスコアの計算
- CLIPで仮提案した領域(crop画像)とテキストの類似度を計算
- (任意)再ラベル付け
- crop画像と全名詞中で最高類似度の名詞を割り当て(GLIPの補正)
- 再スコアリング
- 領域(crop画像)とテキストの類似度を信頼度とする
- 領域レベルのフィルタリング
- 仮提案ペアをテキストでグループ分けし、NMSと信頼度でフィルタリング
- 画像レベルのフィルタリング
- 保持されたペアの信頼度の平均を画像の信頼度としてフィルタリング
実験結果
LVISデータセットを使用してゼロショット性能を評価
参考: LVISデータセットの概要
論文の Table 2 の画像
推論速度(FPS)、精度面で既存手法と比較して強力。
ただしYOLO-Worldは推論速度がウリであるため、比較対象に各モデルの小規模なものが選出。
まとめ
- 高速かつ高い精度のOV物体検出器
- ゼロショット性能やファインチューニング後の性能に優れる
- OVインスタンスセグメンテーションにも応用可能できると主張
所感
- 論文内の主張のみを見ると魅力的に見えるものの、実用の観点ではまだまだ精度が不十分な印象
- 上記の印象は下記参考情報や自身の簡単な検証からの感想としては、アプリへの組み込みや自動アノテーションどちらの用途でも難しそう
- 指定した物体を全然検出できないことや、1インスタンス程度しか検出できなかったり
- 上記の印象は下記参考情報や自身の簡単な検証からの感想としては、アプリへの組み込みや自動アノテーションどちらの用途でも難しそう
- 速度はOVであることを考えると充分速い印象
- 実用したいと考えた場合には、LVIS等のデータセットによる評価力がまだまだ不足しているのかもしれない
- 速度面の制約が少ない自動アノテーション目的であればGrounding DINOの大規模モデルが良いかもしれない
参考情報
- YOLO-World
- GPT-4o
- Gemini