1. 概要
事前学習済みの大規模言語モデル(Large Language Model: LLM)を使って、動画-テキスト間の表現学習を行う研究。
2. 新規性
事前学習済みのLLMを画像系の入力に合わせて調整し、自動で動画に対するテキストの説明がつくようにファインチューニングしている。LLMを事前学習モデルとして、画像系にチューニングしても汎化性を失わないようにした。
3. 実現方法
テキストによるナレーション(説明キャプション)を入力としてテキストエンコーダーを用いて特徴量抽出し、テキストデコーダーを使用して出力した予測値を更に入力として自己回帰モデル(Auto Regressive)で生成していく。
動画部分は、エンコーダー部分とアテンションプーリング層で、パッチ単位の特徴を取得し、クロスアテンション(Cross-attention)層を使ったデコーダー(自己回帰モデル)でキャプション生成を行う。
4. 結果
ゼロショットによる推論結果とファインチューニングによる推論結果のいずれにおいても既存手法の精度を上回っている。動画は一人称視点でも三人称視点でも対応でき、Epic-Kitchens-100タスクで5.9%、EGTEAタスクで10.1%の精度向上を達成した。
Paper URL: https://openaccess.thecvf.com/content/CVPR2023/papers/Zhao_Learning_Video_Representations_From_Large_Language_Models_CVPR_2023_paper.pdf
last updates: July 4 2023