凄まじい勢いで増殖中のTransformer論文+αにとりあえず、目を通しつつコメントを残していく。内容があっている保証はない。
週刊MLPになるのは時間の問題な気がする。
AS-MLP: AN AXIAL SHIFTED MLP ARCHITECTURE FOR VISION
MLP系でSOTA。Axialごとにシフトしてそれを混ぜる。S2-MLPに似てる?
CycleMLP: A MLP-like Architecture for Dense Prediction
今までのMLPと違って、local windowを導入することで学習をLinearにして、SSとかObject detectionとかにも使いやすくした。
Early Convolutions Help Transformers See Better
FAIR論文。ViTで、最初からPatchにするんじゃなくて、そこを普通のConvに変える(Transformer1個分と同じサイズ分。なので、Transformerのブロックは一つ減らす)と、精度良くなったし、学習速くなったし、安定するし良いこといっぱい。
PVTv2: Improved Baselines with Pyramid Vision Transformer
patchをオーバーラップさせたり、Convまぜたりして、前のやつより良くしたよ。
Understanding the Role of Individual Units in a Deep Neural Network
Convが層ごとに何を見ているか? 図がわかりやすい!
Deep Learning on a Data Diet: Finding Important Examples Early in Training
学習の最初の方で、必要なデータがどれで、いらないのはどれかがわかる。
LATTE: LSTM Self-Attention based Anomaly Detection in Embedded Automotive Platforms
CANメッセージ(車の中の情報伝達メッセージ)の中に変なの流れてたら見つける。
YOLOX: Exceeding YOLO Series in 2021
最新YOLOシリーズ。anchor-freeに戻ってたりしてて、こっちはこっちで進んでいるらしい。
RAMS-Trans: Recurrent Attention Multi-scale Transformer for Fine-grained Image Recognition
ViTでパッチサイズをDynamicに選ぶことで、だんだんと細かいところを見ていく。