More than 3 years have passed since last update.

週刊Transformer（画像認識向け）5号

Posted at 2021-07-08

凄まじい勢いで増殖中のTransformer論文＋αにとりあえず、目を通しつつコメントを残していく。内容があっている保証はない。

Global Filter Networks for Image Classification
精華大学論文。ViTのAttentionをFFTでfrequency domainでやる。ViTやMLP-mixerに比べて効率的。

Rethinking Token-Mixing MLP for MLP-based Vision Backbone
百度論文。spatial invariantなToken mixingを考えた。FFTを使う。

The Lottery Tickets Hypothesis for Supervised and Self-supervised Pre-training in Computer Vision Models
いろんなタスク向けのsimCLRとMoCoが作ったpre-trained modelsに対してもくじ引きモデルは使える。

Efficient Vision Transformers via Fine-Grained Manifold Distillation
ViTのDistillationをイメージレベルじゃなくて、パッチレベルでやって小さくする。

VISION XFORMERS: EFFICIENT ATTENTION FOR IMAGE CLASSIFICATION
NLPでTransformerを速くしたいろんな手法をViTに導入して速くした。

Augmented Shortcuts for Vision Transformers
ViTにaugmented shortcutsというのを入れてfeature collapseを止めてSOTA。

Focal Self-attention for Local-Global Interactions in Vision Transformers
ViTで、近くは細かく見て、遠くはざっくり見ることにしてSOTA。

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows
ViTで、縦方向と横方向のウィンドウを並列で見ることでSOTA。

Learned Token Pruning for Transformers
NLP向け。Attentionのスコアが低いTokenをPruningする手法。