search
LoginSignup
3

More than 1 year has passed since last update.

posted at

週刊Transformer(画像認識向け)5号

凄まじい勢いで増殖中のTransformer論文+αにとりあえず、目を通しつつコメントを残していく。内容があっている保証はない。

Global Filter Networks for Image Classification
精華大学論文。ViTのAttentionをFFTでfrequency domainでやる。ViTやMLP-mixerに比べて効率的。

Rethinking Token-Mixing MLP for MLP-based Vision Backbone
百度論文。spatial invariantなToken mixingを考えた。FFTを使う。

AutoFormer: Searching Transformers for Visual Recognition
ViT向け、One-ShotのNASで圧縮。

The Lottery Tickets Hypothesis for Supervised and Self-supervised Pre-training in Computer Vision Models
いろんなタスク向けのsimCLRとMoCoが作ったpre-trained modelsに対してもくじ引きモデルは使える。

Efficient Vision Transformers via Fine-Grained Manifold Distillation
ViTのDistillationをイメージレベルじゃなくて、パッチレベルでやって小さくする。

VISION XFORMERS: EFFICIENT ATTENTION FOR IMAGE CLASSIFICATION
NLPでTransformerを速くしたいろんな手法をViTに導入して速くした。


Augmented Shortcuts for Vision Transformers
ViTにaugmented shortcutsというのを入れてfeature collapseを止めてSOTA。

Focal Self-attention for Local-Global Interactions in Vision Transformers
ViTで、近くは細かく見て、遠くはざっくり見ることにしてSOTA。

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows
ViTで、縦方向と横方向のウィンドウを並列で見ることでSOTA。

GLiT: Neural Architecture Search for Global and Local Image Transformer
ViT用のNAS。

Learned Token Pruning for Transformers
NLP向け。Attentionのスコアが低いTokenをPruningする手法。

What Makes for Hierarchical Vision Transformer?
ViTからのSwin transformerのMHSAブロックを交換。

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
What you can do with signing up
3