More than 1 year has passed since last update.

(ViTの論文)AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE, Alexey et al, 2021のメモ

Transformer

Posted at 2023-08-19

AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE, Alexey et al, 2021

Abst
- Transformerを画像でも使おう
- 既存のcnnとself-attentionの組み合わせは特殊な処理が多い→なるべく標準Transformerの形を使う
- 画像をパッチに分割して、Transformerに入れる
- 大規模データで事前学習するとよい精度が出る
RELATED WORK
- 各ピクセルでself-attentionすると計算量が膨大になる
METHOD
- 流れ
  1. 画像をパッチに分割→1列に並べる
  2. 各パッチをD次元のベクトルに変換
  3. class tokenベクトルを先頭に追加
  4. 各ベクトルにPositional Encodingを追加(1Dでやる、2Dでもあまり効果なかった)
  5. Transformerに入れる
  6. 下流タスクに流す
- Inductive bias：cnnは局所性とか並進不変とかのバイアスが入ってるが、ViTにはない
- Hybrid Architecture：生の画像をパッチにする代わりにcnnに通してからやってもok
- FINE-TUNING AND HIGHER RESOLUTION
  - pretrainより高い解像度でfine-tuneすると精度が上がる
  - ViTは任意長にokなので、パッチサイズそのままで系列増えてもokだが、peが機能しなくなる
  - pretrainの画像サイズでのpeから入力データのpeを補完していれる
EXPERIMENTS
4.2 COMPARISON TO STATE OF THE ART
- JFT-300Mで事前学習したモデル(パッチサイズ14x14)が強かった
- pretrainに必要な計算量も小さかった
  4.5 INSPECTING VISION TRANSFORMER
- 1Dのpositional encofingでも近いパッチが近似するようになっている→2Dのpeがあまり必要ない理由？

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up