LoginSignup
2
3

More than 1 year has passed since last update.

週刊Transformer(画像認識向け)5号

Posted at

凄まじい勢いで増殖中のTransformer論文+αにとりあえず、目を通しつつコメントを残していく。内容があっている保証はない。

Global Filter Networks for Image Classification
精華大学論文。ViTのAttentionをFFTでfrequency domainでやる。ViTやMLP-mixerに比べて効率的。

Rethinking Token-Mixing MLP for MLP-based Vision Backbone
百度論文。spatial invariantなToken mixingを考えた。FFTを使う。

AutoFormer: Searching Transformers for Visual Recognition
ViT向け、One-ShotのNASで圧縮。

The Lottery Tickets Hypothesis for Supervised and Self-supervised Pre-training in Computer Vision Models
いろんなタスク向けのsimCLRとMoCoが作ったpre-trained modelsに対してもくじ引きモデルは使える。

Efficient Vision Transformers via Fine-Grained Manifold Distillation
ViTのDistillationをイメージレベルじゃなくて、パッチレベルでやって小さくする。

VISION XFORMERS: EFFICIENT ATTENTION FOR IMAGE CLASSIFICATION
NLPでTransformerを速くしたいろんな手法をViTに導入して速くした。


Augmented Shortcuts for Vision Transformers
ViTにaugmented shortcutsというのを入れてfeature collapseを止めてSOTA。

Focal Self-attention for Local-Global Interactions in Vision Transformers
ViTで、近くは細かく見て、遠くはざっくり見ることにしてSOTA。

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows
ViTで、縦方向と横方向のウィンドウを並列で見ることでSOTA。

GLiT: Neural Architecture Search for Global and Local Image Transformer
ViT用のNAS。

Learned Token Pruning for Transformers
NLP向け。Attentionのスコアが低いTokenをPruningする手法。

What Makes for Hierarchical Vision Transformer?
ViTからのSwin transformerのMHSAブロックを交換。

2
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
3