今までに読んだ論文の中から吐き出しているので連続の投稿となります.
今回の論文
ECCV2024より
https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/02666.pdf
概要
この論文では,画像とテキストの事前学習において長いキャプション(10文程度)を活用する新しい手法を提案するモデル(DreamLIP)を提案.既存のデータセットの短いキャプションでは捉えきれない画像の豊かな内容を、詳細なキャプションを生成することで効果的に学習している.
先行研究と比べてどこがすごいのか
Vision-Language Pretrainingで使われるデータセットにはキャプションのような短いテキストのデータセットしかなかったが,事前学習されたMultimodal Large Language Model(MLLM)を使うことで長いテキストのデータセットを構築できるようになり,従来の短いキャプションに比べて画像の詳細な特徴を効果的に捉えることが可能に.CLIPが400Mのペアで訓練された場合と比較して、DreamLIPは30Mペアで同等かそれ以上のパフォーマンスを達成.また,セマンティックセグメンテーションや画像-テキスト検索タスクにおいて、きめ細やかな表現能力を発揮.
技術や手法の”キモ”はどこにある?
まず,元のImage-Text PairについてMLLMを用いて、詳細なサブキャプションを生成し,サブキャプションに分割.次にサブキャプションの埋め込みと全体画像の埋め込みとで対照学習をする.さらに,画像をパッチ化し,各サブキャプションとの対照学習もする.このように画像全体とサブキャプション間の特徴を多対多の関係で学習することで、細部のセマンティクスも捉える.
評価
様々なタスクにおいて評価していたがここでは画像認識のものだけ抜粋.
上の表は既存モデルとDreamLIPのzero-shot trasfer性能を表している.これを見るとほとんどの学習データセットで,下流データセットでの精度の平均をとったAverageにおいてSOTAを達成している.