はじめに
最近Vision-Transformer(ViT)について実験を始めたumeboshiです! ViTとは2020年にAlexey Dosovitskiyらによって発表された,Transformerを用いることでで畳み込み構造を完全に排除したモデルのことです。ImageNet/CIFAR-100/VTABなどのタスクでSoTAモデルのCNNを同程度または上回る性能を達成しており、SoTAモデルであるBiTやNoisyStudentと比べて計算コストも1/15程度まで削減されています。
この記事ではViTについて 理解を深めたい/とりあえず実験をしたい という方を対象に,読むべき論文/解説記事とおすすめの学習用コードのリンクをまとめています。
論文まとめ
-
AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
- 全ての始まりVision-Transformerの原著
-
Training data-efficient image transformers & distillation through attention
- 教師モデルを蒸留することにより,少量のデータ量で効率的に学習出来るDeiTを提案
-
Can Vision Transformers Learn without Natural Images?
- 数式ドリブンデータセット「FractalDB」をVision-Transformer(DeiT)の事前学習に利用
-
Do Vision Transformers See Like Convolutional Neural Networks?
- CNNとViTの内部表現構造の違いを分析
-
How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers
- ViTの容量/事前学習に用いるデータセットにより,データ拡張/正則化の有効性が変化
Vision-Transformer解説まとめ
-
Transformerメタサーベイ
- positional encoding(位置情報の付与)の解説
- Transformerブロックの中身について解説
- Multi-head attention
- 残差接続(Residual Connection)
- Layer Normalizationによる正規化
- Position-wise feed forward networks(2層のMLP)
- DropOut
-
画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説!
- ViT原著の日本語解説記事
-
ビジョン・トランスフォーマーはなぜCNNより強い?その仕組みを解明【論文速報】
- Do Vision Transformers See Like Convolutional Neural Networks?の解説記事
Attention解説記事まとめ
-
End-to-End Object Detection with Transformers
- 牛久先生によるVision-TransformerのAttention構造についての解説
-
論文解説 Attention Is All You Need (Transformer)
- Attention Is All You Need論文の日本語解説。 図が分かりやすい。
-
図で理解するTransformer
- これも図が分かりやすいAttentionの解説
-
作って理解する Transformer / Attention
- pythonでコーディングしながらTransformer/Attentionを解説
Transformerの改善/派生モデル
-
Rethinking Positional Encoding in Language Pre-training
- positional encodingの改善。Attentionに足す
-
Are Sixteen Heads Really Better than One?
- Multi-head attentionの改善。冗長なheadを取り除くことでテスト時の性能を維持しつつ計算コスト削減
-
Multi-Head Attention with Diversity for Learning Grounded Multilingual Multimodal Representations
- Multi-Head Attentionの改善。Attention head間の多様性を上げる正則化項を導入
-
Longformer: The Long-Document Transformer
- Attentionの計算範囲を工夫することで計算量削減
-
REFORMER: THE EFFICIENT TRANSFORMER
- Attention層での内積計算を効率化・メモリ使用量削減
-
DPT: Deformable Patch-based Transformer for Visual Recognition
- パッチサンプリングの工夫。固定サイズのパッチを用いず,変換可能なパッチモジュールを使用
-
Vision Transformer with Progressive Sampling
- パッチサンプリングの工夫。パッチの位置を動的に変化させることで,物体の重要部分が境界で分かれることを防ぐ
-
Focal Self-attention for Local-Global Interactions in Vision Transformers
- パッチサンプリングの工夫。近くのパッチは細かく,遠くのパッチは大きく区切ることで全体のパッチ数を減らし計算量削減
-
Conformer: Local Features Coupling Global Representations for Visual Recognition
- globalな特徴を捉えられるTransformer+localな特徴強を捉えられるCNNの融合モデル。ConformerはCNNとTransformerを並列させたtwo-streamモデル
-
Visual Transformers: Token-based Image Representation and Processing for Computer Vision
- 浅い層の処理をCNNで置き換えて計算効率を上げたVision-Transformer
-
CvT: Introducing Convolutions to Vision Transformers
- Positional embeddingの代わりに畳み込み使用
- Attention時のQuery,Key,Valueの変換を線形変換の代わりに畳み込み使用
サーベイ論文
-
A Survey on Vision Transformer
- 2020/12/23
-
Transformers in Vision: A Survey
- 2021/01/04
-
Perspectives and Prospects on Transformer Architecture for Cross-Modal Tasks with Language and Vision
- 2021/03/06
-
A Survey of Visual Transformers
- 2021/11/11
github Repository
-
jeonsworld/ViT-pytorch
- Vision-Transformerモデルの事前学習,Finetuneが出来る。AttentionMapの可視化コード付き
このリポジトリのtrain.pyはTrainAccを計算していません。ValidAccと同じように出力したい場合は注意が必要です。
Validデータセットに適用する画像前処理と比べ, Trainデータセットに適用する前処理はより複雑で,画像分類の問題設定を難しくしています。ですので,このままのTrainデータセットに対してTrainAccを出力しようとするとValidAccより低い値が出力されます。
学習用に使用するTrain画像とは別に用意した, Validデータセット用の画像前処理を適用したTrainデータセットに対してTrainAccを計算しましょう。
-
lucidrains/vit-pytorch
- 10種を超える様々なVision-Transformerを使用可能
-
nakashima-kodai/FractalDB-Pretrained-ViT-PyTorch
- FractalDBを使用してVision-Transformer(DeiT)モデルを事前学習出来る。
-
facebookresearch/deit
- timmを利用して複数のDeiTモデルを事前学習,Finetune可能