0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

[arXiv] VideoITG: Multimodal Video Understanding with Instructed Temporal Grounding

Posted at

VideoITG: Multimodal Video Understanding with Instructed Temporal

Grounding

論文情報

  • 著者: Shihao Wang, Guo Chen, De-an Huang, Zhiqi Li, Minghan Li, Guilin Li, Jose M. Alvarez, Lei Zhang, Zhiding Yu
  • arXiv ID: 2507.13353v1
  • PDF: Link

要約

VideoITGは、ユーザーの指示に基づいて動画フレームを効果的に選択する新しい手法である。従来の教師なし学習アプローチとは異なり、VidThinkerという自動アノテーションフレームワークを通じて人間のアノテーション過程を模倣し、指示に合致した時間的グラウンディング(temporal grounding)を実現する。このアプローチにより、長い動画の理解において複雑なシナリオに対応でき、Video Large Language Models(Video-LLMs)の性能を大幅に向上させることができる。

主要なポイント

  1. VidThinkerパイプライン: 指示条件付きでクリップレベルの詳細キャプションを生成し、指示誘導推論を通じて関連動画セグメントを検索、最終的に最も情報量の多い視覚的証拠を特定する自動アノテーションフレームワーク
  2. VideoITG-40Kデータセット: 40,000本の動画と500,000件の指示付き時間的グラウンディングアノテーションを含む大規模データセットの構築
  3. プラグアンドプレイ対応: Video-LLMsの視覚言語アライメントと推論能力を活用し、識別的な方法で効果的なフレーム選択を行うモデル設計

意義・影響

この研究は、動画理解における情報量の多いフレーム選択という根本的な問題に対して、指示ベースの新しいアプローチを提案している。複数のマルチモーダル動画理解ベンチマークで一貫した性能向上を達成しており、長時間動画の理解や実用的な動画AI応用の発展に大きく貢献する可能性がある。

#1

参考リンク


この記事は自動生成されました。論文の詳細については、元の論文をご確認ください。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?