[arXiv] VideoITG: Multimodal Video Understanding with Instructed Temporal Grounding

Posted at 2025-07-19

VideoITG: Multimodal Video Understanding with Instructed Temporal

Grounding

論文情報

著者: Shihao Wang, Guo Chen, De-an Huang, Zhiqi Li, Minghan Li, Guilin Li, Jose M. Alvarez, Lei Zhang, Zhiding Yu
arXiv ID: 2507.13353v1
PDF: Link

要約

VideoITGは、ユーザーの指示に基づいて動画フレームを効果的に選択する新しい手法である。従来の教師なし学習アプローチとは異なり、VidThinkerという自動アノテーションフレームワークを通じて人間のアノテーション過程を模倣し、指示に合致した時間的グラウンディング（temporal grounding）を実現する。このアプローチにより、長い動画の理解において複雑なシナリオに対応でき、Video Large Language Models（Video-LLMs）の性能を大幅に向上させることができる。

主要なポイント

VidThinkerパイプライン: 指示条件付きでクリップレベルの詳細キャプションを生成し、指示誘導推論を通じて関連動画セグメントを検索、最終的に最も情報量の多い視覚的証拠を特定する自動アノテーションフレームワーク
VideoITG-40Kデータセット: 40,000本の動画と500,000件の指示付き時間的グラウンディングアノテーションを含む大規模データセットの構築
プラグアンドプレイ対応: Video-LLMsの視覚言語アライメントと推論能力を活用し、識別的な方法で効果的なフレーム選択を行うモデル設計

意義・影響

この研究は、動画理解における情報量の多いフレーム選択という根本的な問題に対して、指示ベースの新しいアプローチを提案している。複数のマルチモーダル動画理解ベンチマークで一貫した性能向上を達成しており、長時間動画の理解や実用的な動画AI応用の発展に大きく貢献する可能性がある。

参考リンク

arXiv
PDF

この記事は自動生成されました。論文の詳細については、元の論文をご確認ください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up