More than 3 years have passed since last update.

週刊Transformer（画像認識向け）7号

Last updated at 2021-07-29Posted at 2021-07-25

凄まじい勢いで増殖中のTransformer論文＋αにとりあえず、目を通しつつコメントを残していく。内容があっている保証はない。
週刊MLPになるのは時間の問題な気がする。

AS-MLP: AN AXIAL SHIFTED MLP ARCHITECTURE FOR VISION
MLP系でSOTA。Axialごとにシフトしてそれを混ぜる。S2-MLPに似てる？

CycleMLP: A MLP-like Architecture for Dense Prediction
今までのMLPと違って、local windowを導入することで学習をLinearにして、SSとかObject detectionとかにも使いやすくした。

Early Convolutions Help Transformers See Better
FAIR論文。ViTで、最初からPatchにするんじゃなくて、そこを普通のConvに変える（Transformer1個分と同じサイズ分。なので、Transformerのブロックは一つ減らす）と、精度良くなったし、学習速くなったし、安定するし良いこといっぱい。

PVTv2: Improved Baselines with Pyramid Vision Transformer
patchをオーバーラップさせたり、Convまぜたりして、前のやつより良くしたよ。

Understanding the Role of Individual Units in a Deep Neural Network
Convが層ごとに何を見ているか？　図がわかりやすい！

Deep Learning on a Data Diet: Finding Important Examples Early in Training
学習の最初の方で、必要なデータがどれで、いらないのはどれかがわかる。

LATTE: LSTM Self-Attention based Anomaly Detection in Embedded Automotive Platforms
CANメッセージ（車の中の情報伝達メッセージ）の中に変なの流れてたら見つける。

YOLOX: Exceeding YOLO Series in 2021
最新YOLOシリーズ。anchor-freeに戻ってたりしてて、こっちはこっちで進んでいるらしい。

RAMS-Trans: Recurrent Attention Multi-scale Transformer for Fine-grained Image Recognition
ViTでパッチサイズをDynamicに選ぶことで、だんだんと細かいところを見ていく。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up