0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

(ViTの論文)AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE, Alexey et al, 2021のメモ

Posted at

AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE, Alexey et al, 2021

  1. Abst
    • Transformerを画像でも使おう
    • 既存のcnnとself-attentionの組み合わせは特殊な処理が多い→なるべく標準Transformerの形を使う
    • 画像をパッチに分割して、Transformerに入れる
    • 大規模データで事前学習するとよい精度が出る
  2. RELATED WORK
    • 各ピクセルでself-attentionすると計算量が膨大になる
  3. METHOD
    • 流れ
      1. 画像をパッチに分割→1列に並べる
      2. 各パッチをD次元のベクトルに変換
      3. class tokenベクトルを先頭に追加
      4. 各ベクトルにPositional Encodingを追加(1Dでやる、2Dでもあまり効果なかった)
      5. Transformerに入れる
      6. 下流タスクに流す
    • Inductive bias:cnnは局所性とか並進不変とかのバイアスが入ってるが、ViTにはない
    • Hybrid Architecture:生の画像をパッチにする代わりにcnnに通してからやってもok
    • FINE-TUNING AND HIGHER RESOLUTION
      • pretrainより高い解像度でfine-tuneすると精度が上がる
      • ViTは任意長にokなので、パッチサイズそのままで系列増えてもokだが、peが機能しなくなる
      • pretrainの画像サイズでのpeから入力データのpeを補完していれる
  4. EXPERIMENTS
    4.2 COMPARISON TO STATE OF THE ART
    • JFT-300Mで事前学習したモデル(パッチサイズ14x14)が強かった
    • pretrainに必要な計算量も小さかった
      4.5 INSPECTING VISION TRANSFORMER
    • 1Dのpositional encofingでも近いパッチが近似するようになっている→2Dのpeがあまり必要ない理由?
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?