物体認識系技術の勉強の備忘録②

Posted at 2025-03-30

この記事について

物体認識系技術の勉強として学んだ内容のざっくりまとめ。
多くの画像は論文(HTML版arXiv)の画像へのリンク。

YOLO-World: Real-Time Open-Vocabulary Object Detection

オープンボキャブラリ物体検出に関する論文。
論文プロジェクトページ

概要情報

分野

物体検出セグメンテーション

主な成果

高速なオープンボキャブラリ物体検出モデル YOLO-World を提案
- RepVL-PAN
- Region-Text Contrastive Loss(領域とテキストの対照損失)
- 擬似ラベル生成による大規模事前学習
- 推論専用の効率化戦略

モデル概要

YOLOv8ベースの視覚情報とCLIPのText Encoderの言語情報をRepVL-PANで統合
YOLOv8のアーキテクチャ図
従来のOV物体検出モデル(Grounding DINO等)は推論時間が課題
精度を維持して高速化

用語メモ

用語	説明
オープンボキャブラリ物体検出	検出対象の物体を任意のテキストで自由に指定する
grounding	抽象的なモノを具体的なモノに結びつけること言語情報を画像中の物体に結びつける

※以降、オープンボキャブラリをOVと記載

学ぶモチベーション

自動アノテーションでの利用を想定したポテンシャル確認

YOLO-World が実用的なレベルの能力を持っているかの確認
疑似ラベル関連の内容が自動アノテーションの参考になれば

課題感と期待

課題
- アノテーションの効率化は多くのプロジェクトで課題になりがち
- 既存モデルをアノテーションに利用する取り組みは各所でされているが、デファクトスタンダードな方法はない印象
- GPT-4o等のLLM(VLM)はBOXの位置やサイズが不正確
  (YOLO-Worldを調べている時点で、自身でのGemini2.0検証は未実施)
期待
- OVならクラス定義を自由に変更でき、可用性の高い自動アノテーションモデルとして活用できる

内容

RepVL-PAN

Re-parameterizable Vision-Language PAN

PAN: Path Aggregation Network

役割: マルチスケール特徴を集約
- スケール変化に強くなり、小さなオブジェクトを検出しやすくなる
構造: トップダウンパスとボトムアップパス
- 高レベルな抽象的特徴を下層に伝播するトップダウンパス
- 低レベルな特徴を上層に伝播するボトムアップパス
活用: YOLOシリーズなど、さまざまな物体検出モデルで活用されている

PANet論文読み

役割: 視覚情報と言語情報を統合する
構造:
- T-CSPLayer
  - Text-guided CSPLayer
  - 画像特徴(C3～C5)とテキスト特徴の行列積にmaxとシグモイド適用
  - テキスト特徴に類似する画像特徴が残る
- I-Pooling Attention
  - Image-Pooling Attention
  - 各スケールの視覚特徴(T-CSPLayer由来)を結合
  - Multi-Head Attentionで視覚特徴とテキスト特徴の相関を計算
  - 画像特徴を反映したテキスト特徴が誕生

推論時の再パラメータ化

従来の物体検出器と一般的なOV物体検出器を混ぜたような使い勝手
- 検出対象とするプロンプトを事前にセット(テキスト埋め込みを事前に作成)
- T-CSPLayerとI-Pooling Attentionの簡易化

疑似ラベルの生成と学習での利用

領域テキストペア(疑似ラベル)生成の流れ

以下の流れで24万枚以上をラベリング

画像テキストデータセットから物体の名詞を抽出
GLIPによる領域テキストペアの仮提案
CLIPベースフィルタリング

領域テキストペア(疑似ラベル)生成の流れ

CLIPベースフィルタリング

画像テキストスコアの計算
- CLIPで画像とキャプションの類似度を計算
領域テキストスコアの計算
- CLIPで仮提案した領域(crop画像)とテキストの類似度を計算
(任意)再ラベル付け
- crop画像と全名詞中で最高類似度の名詞を割り当て(GLIPの補正)
再スコアリング
- 領域(crop画像)とテキストの類似度を信頼度とする
領域レベルのフィルタリング
- 仮提案ペアをテキストでグループ分けし、NMSと信頼度でフィルタリング
画像レベルのフィルタリング
- 保持されたペアの信頼度の平均を画像の信頼度としてフィルタリング

実験結果

LVISデータセットを使用してゼロショット性能を評価
参考: LVISデータセットの概要

論文の Table 2 の画像
推論速度(FPS)、精度面で既存手法と比較して強力。
ただしYOLO-Worldは推論速度がウリであるため、比較対象に各モデルの小規模なものが選出。

定性評価

まとめ

高速かつ高い精度のOV物体検出器
ゼロショット性能やファインチューニング後の性能に優れる
- OVインスタンスセグメンテーションにも応用可能できると主張

所感

論文内の主張のみを見ると魅力的に見えるものの、実用の観点ではまだまだ精度が不十分な印象
- 上記の印象は下記参考情報や自身の簡単な検証からの感想としては、アプリへの組み込みや自動アノテーションどちらの用途でも難しそう
  - 指定した物体を全然検出できないことや、1インスタンス程度しか検出できなかったり
速度はOVであることを考えると充分速い印象
実用したいと考えた場合には、LVIS等のデータセットによる評価力がまだまだ不足しているのかもしれない
速度面の制約が少ない自動アノテーション目的であればGrounding DINOの大規模モデルが良いかもしれない

参考情報

物体認識系技術の勉強の備忘録②

この記事について

YOLO-World: Real-Time Open-Vocabulary Object Detection

概要情報

分野

主な成果

モデル概要

学ぶモチベーション

内容

RepVL-PAN

PAN: Path Aggregation Network

推論時の再パラメータ化

疑似ラベルの生成と学習での利用

領域テキストペア(疑似ラベル)生成の流れ

領域テキストペア(疑似ラベル)生成の流れ

実験結果

まとめ

関連情報