凄まじい勢いで増殖中のTransformer論文+αにとりあえず、目を通しつつコメントを残していく。内容があっている保証はない。
Global Filter Networks for Image Classification
精華大学論文。ViTのAttentionをFFTでfrequency domainでやる。ViTやMLP-mixerに比べて効率的。
Rethinking Token-Mixing MLP for MLP-based Vision Backbone
百度論文。spatial invariantなToken mixingを考えた。FFTを使う。
AutoFormer: Searching Transformers for Visual Recognition
ViT向け、One-ShotのNASで圧縮。
The Lottery Tickets Hypothesis for Supervised and Self-supervised Pre-training in Computer Vision Models
いろんなタスク向けのsimCLRとMoCoが作ったpre-trained modelsに対してもくじ引きモデルは使える。
Efficient Vision Transformers via Fine-Grained Manifold Distillation
ViTのDistillationをイメージレベルじゃなくて、パッチレベルでやって小さくする。
VISION XFORMERS: EFFICIENT ATTENTION FOR IMAGE CLASSIFICATION
NLPでTransformerを速くしたいろんな手法をViTに導入して速くした。
Augmented Shortcuts for Vision Transformers
ViTにaugmented shortcutsというのを入れてfeature collapseを止めてSOTA。
Focal Self-attention for Local-Global Interactions in Vision Transformers
ViTで、近くは細かく見て、遠くはざっくり見ることにしてSOTA。
CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows
ViTで、縦方向と横方向のウィンドウを並列で見ることでSOTA。
GLiT: Neural Architecture Search for Global and Local Image Transformer
ViT用のNAS。
Learned Token Pruning for Transformers
NLP向け。Attentionのスコアが低いTokenをPruningする手法。
What Makes for Hierarchical Vision Transformer?
ViTからのSwin transformerのMHSAブロックを交換。