はじめに
最近Vision and Language、とくにImage to Textに興味がでてきたので、いくつか重要そうな研究の情報収集をしました。
本記事で紹介する内容はあくまでImage to Textに関する事前学習モデルやそれに関連する研究のアーキテクチャー中心であり、その研究における評価(精度とか応用)とかの話には全然触れることができていませんし、数式的なものも何もでてきません。なんかもう雰囲気だけです。
紹介する研究の全てではないですが、できるだけhuggingfaceのmodel hub(以降、model hub)にパラメータが公開されているものを中心に選んでいます。model hubで公開されている研究については、タイトルに「🤗」をつけてます。
(先行研究の調べ方として、そもそもmodel hubでimage-to-textやVQAで絞り込んだ上でよくダウンロードされている研究を優先的に調べました。)
今回紹介する研究は2019年9月のUNITERから2023年1月のBLIP-2の間の研究を紹介しています。
もっとこんな重要な研究もあるから見ておいたほうがよい、というものがありましたら、ぜひともコメント等でご教示いただけるとうれしいです。
参考
- 事前学習言語モデルを用いたVision & Languageの動向
- NLPとVision-and-Languageの基礎・最新動向 (2)
- Vision and Languageと分野を取り巻く深層学習手法の紹介
- A Dive into Vision-Language Models
ざっくりとしたここ数年のVision and Languageの流れ
- ViTが登場する前は画像側が物体検出を用いる複雑なアーキテクチャーが主流だった
- ViT登場により、画像はパッチトークンベースで扱われるようになり、物体検出の縛りが消えて、大規模化が加速
- CLIPが登場してからはImage EncoderはCLIPをベースとした事前学習モデルが用いられがちだし、事前学習タスクにはよく対照学習が用いられる
UNITER: UNiversal Image-TExt Representation Learning
- microsoft 2019.9
- 論文 : https://arxiv.org/abs/1909.11740
- ImageはFaster R-CNNと7次元の位置情報(x1, y1, x2, y2, w, h, w*h)を抽出
- TextはBERTと同じくWordPiece+PE
- MRM: MASKした画像ベクトルをFC層に入力して、MASKされた元画像のFaster R-CNNによって検出されるオブジェクトクラスの分類タスク?
- imageとtextを両方MASKすることはしない
- ITM: CLSトークンから入力画像とテキストが一致するかの2値分類
- WRA: UNITER独自の損失関数、OT(Optimal Transport)を使って画像矩形トークンと単語トークン間の分布を最小化する
🤗 ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
- NAVER AI Lab 2021.6
- 論文 : https://arxiv.org/abs/2102.03334
- model hub : https://huggingface.co/dandelin/vilt-b32-finetuned-vqa
- 当時はImage EncoderにCNNやobject detectionの特徴量とかを使ってたけど、Transformerに置き換えて学習効率や表現力を向上させた
- CLIPとかと違って下流タスクもしっかり性能が出て、処理速度が最大60倍向上
- Image Text Matching: 1/2の確率で別画像に差し替える
- MLMはwhole word masking
- WPAはUNITERのWRAの画像パッチバージョン
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision
- Googleなど 2021.8
- 論文 : https://arxiv.org/abs/2108.10904
- CLIPはzero-shotすごいけど、VLの下流タスクでFineTuningすると性能が微妙だったりする。
- SimVLMは事前学習→FineTuningとしてVLの様々なタスクで機能し、zero-shotもできる
- GPTのような自己回帰的にテキスト生成を行いつつもBERTのような双方性をもったPrefix Language Modeling(PrefixLM)で事前学習
- モーダルを区別するembeddingは入れてない(改善しなかった)
- 直感的には、画像はWeb文書内のテキストの前に現れることが多いため、テキストの記述の接頭辞と考えることができる
- prefixの区切りはランダムに選択される
- 18億の画像テキストペア(ALIGNデータセット)とテキストのみのC4、合計800GBのデータで学習
Unified Contrastive Learning in Image-Text-Label Space
- microsoft 2022.4
- 論文: https://arxiv.org/abs/2204.03610
- 教師ありラベルのついた画像と画像-テキストのペアデータをシームレスに扱い、教師あり学習の利点(識別能力)とCLIPなどの利点(広範は視覚的概念)を1つのモデルで表現する
- 教師ラベルは A photo of Chihuahua. のようにCLIPのzero-shotでやるpromptみたいにテキストに変換
- 対照学習するときはラベル空間が同一のものは正例とみなし、それ以外は負例とみなして学習
- promptテンプレートを予め用意し、epoch枚にランダムにテンプレートを選定している?
Florence: A New Foundation Model for Computer Vision
- microsoft 2021.11
- 論文 : https://arxiv.org/abs/2111.11432
- Computer Visionにおける基礎モデルを構築
- CVにおける「基礎」的なタスクを空間-時間-モダリティの3軸で定義
- 「基礎」モデルは、これらの視覚タスクを解決するための事前学習済みモデルとそのアダプタとして、 ゼロ/数ショット学習や完全微調整などの伝達性を持つように再定義されることが望ましい
- 物体検出タスクに用いる場合は、CoSwinにDynamic Head Adapter(Dai et al 2021b)を追加
- VQAや画像キャプション生成などのタスクに用いる場合、METER(Dou et al 2021)のImage EncoderをCoSwinに置き換え、RoBERTaとCo-Attentionする
- image-text matching loss(CLIP?)とMLMでモデルを学習した後、VQAなどのタスクでFine Tuningする(どゆこと?)
🤗 GIT: A Generative Image-to-text Transformer for Vision and Language
- microsoft 2022.5
- 論文 : https://arxiv.org/abs/2205.14100
- model hub : https://huggingface.co/microsoft/git-base
- これまでのimage to textのように複雑なアーキを必要としない
- Image Encoder、Text Decoderが1つずつあるだけ
- タスクも言語モデリング(自己回帰)だけでImage Encoder, Text Decoderを学習
- 0.8億ペアの画像-テキストのペアデータで事前学習
- 動画のタスクでもSOTA出た
- Image EncoderはUniCL (Unifield Contrastive Learning)によって学習されたFlorenceのImage Encoderを使用
- Image to TextにおけるImage Encoderは画像単体による事前学習モデルを初期パラとして使うより、Vision and Languageで対照学習されたImage Encoderを使うと良い、という先行研究に従ってる様子
- Text Decoderはランダムに初期化(BERTとかのPLMのパラメータを使ってるわけではない)
- BERTのパラメータはvisionのことなんも理解してないから、最初からvisionありきで学習しても変わらん結果になるらしい(むしろ悪化する)
- Text DecoderのAttentionの計算はimage tokenは双方向に、text tokenは各image tokenとこれまで生成したtext tokenのみにAttentionするように計算(Text部分は通常のMasked Multi-head Attentionと同様)
- 画像特徴量をCross Attentionするアーキも考えられるが、データ量が大規模の場合、Cross AttentionでEncoder-Decoder構築するよりも右図のようなアーキのほうが良い。少ないデータのときはCross Attentionのほうが有効
- データ量が多ければText Decoder側で画像とテキストがうまい具合に計算されるらしい
- Cross Attentionのデメリットは画像token同士のAttentionが行えない点が挙げられる
🤗 BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- salesforce 2022.1
- 論文 : https://arxiv.org/abs/2201.12086
- model hub : https://huggingface.co/Salesforce/blip-image-captioning-base
- VLの課題:CLIPのようなEncoderベースはテキスト生成、SimVLMのようなEncDecは検索への応用
- BLIPの特徴は以下の2つ
- MED(Multimodal mixture of Encoder-Decoder): 3つのVL事前学習タスクを行うUnimodal、Multimodalの混合アーキテクチャー
- CapFilt(Captioning and Filtering): ノイズの多いウェブ画像から合成キャプションを生成するモジュールと元のウェブテキストと合成テキストの両方からノイズの多いキャプションを除去するフィルタモジュール
- Image Encoder: Vit, Text Encoder: BERT(BERTは1つで3回forwardする)
- ITC: Image-Text Contrastive Loss, ITM: Image-Text Matching Loss, LM: Language Modeling Loss
- 各タスクに固有の特殊トークン、[CLS], [Encode], [Decode]がBERTの先頭に挿入される
- MLMは使ってない(LMのほうが視覚情報をコヒーレントなキャプションに変換する汎化能力が持てる)
- これまで:Web上のデータはノイズ多い→データ増やせばOK
- BLIP:ノイズがあるとVLにとってよくない、CapFiltでブートストラップしたほうがいい
- Webデータ込でMEDを事前学習→ COCOを使って各タスクでFineTuning→ Web画像-テキストペアとWeb画像から生成されたキャプションのペアそれぞれをITMでマッチするか確認→ マッチした画像-テキストペアをDに加えてもう一回事前学習
- 同じ元画像に対して、生成キャプションだけ受け入れられることもある
🤗 Perceiver: General Perception with Iterative Attention
Perceiver IO: A General Architecture for Structured Inputs & Outputs
- DeepMind 2021.3 and 2021.7
- 論文
- Perceiver: https://arxiv.org/abs/2103.03206
- Perceiver IO: https://arxiv.org/abs/2107.14795
- DeepMindのmodel hub : https://huggingface.co/deepmind
- データドメインに依存しない
- データの入力系列(M)よりも小さい潜在ベクトル(N)でCross AttentionすることでO(M2)をO(MN)に減らすことで系列長が大きいデータにも対応できる
Flamingo: a Visual Language Model for Few-Shot Learning
- DeepMind 2022.4
- 論文 : https://arxiv.org/abs/2204.14198
- Perciever Resampler: 凍結言語モデルとのCross Attentionの計算量を減らすために、凍結視覚モデルの特徴量から固定数の特徴量を選択している(64個?)
- Gated xAttn-Dense: ゲート付のCross Attention層。ゲートにはtanh(α)を使う。αの初期値は0(i.e. 最初はLMそのもの)で学習可能パラメータ
- VisionEncoderはNFNet-F6(435M)
- LMにはChinchilla(70B, DeepMindが作ったGPT-3よりも良い言語モデルらしい)を使用
- VLタスクfew shotでSOTA
🤗 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- salesforce 2023.1
- 論文 : https://arxiv.org/abs/2301.12597
- model hub : https://huggingface.co/Salesforce/blip2-flan-t5-xxl
- 凍結事前学習済画像エンコーダーと凍結大規模言語モデルをQuery Transformerでモダリティーギャップを2段階アプローチで埋める
- Q-Former自体はパラメータ少ない(2億弱)ので計算効率よし
- VLの事前学習時も凍結し続けることでunimodalの忘却を防ぐ
- よいVLモデルを作るには高度なunimodalモデルを構築することが重要になってくる、ということでしょうか。
- Q-Formerの考え方はFlamingoのPerceiver Resamplerに似ている
1段階目
- 論文中ではrepresentation learningとか言われている。Flamingoにはない学習ステージ
- ImageEncoderはViT(base or large)
- Q-FormerはBERT-baseで初期化、Self-Attention層はqueryとtextは同じ(多分右図)
- Learned Queriesは768次元で32個で実験
- BLIPと同様に3つのタスク(ITA、ITC、LM)で事前学習
- タスクに応じてself attention層のattention maskを変える
- Queryの出力は768×32で、これは凍結画像Encoderの出力よりもはるかに小さい
- Queryにはテキストに最も関連する視覚情報が抽出されている(VLのために必要な画像特徴量がうまいこと蒸留されてる感じ?)
2段階目
- LLMとしてOPT(Decoderモデル)、FranT5(EncDecモデル)の2パターンを検証
- FC層でQueryの次元数をLLMの次元数に射影する
- Queryの役割は画像特徴のソフトなプロンプトの役割なっている、つまりQ-Formerは言語情報量の多い視覚表現を抽出するように学習されているため、無関係な視覚情報を取り除きながら、最も有用な情報をLLMに与える役割になっている。
おわりに
個人的にBLIP-2のアーキテクチャー(特にQ-Formerのような考え方)にとても感動しました。