凄まじい勢いで増殖中のTransformer論文+αにとりあえず、目を通しつつコメントを残していく。内容があっている保証はない。
Vision Permutator: A Permutable MLP-Like Architecture for Visual Recognition
ViTのAttentionパーツをPermute-MLPに変換。MLP-mixerと違って、パッチをTokenとして行列化させずに絵の場所情報は取っておく。追加データなしで学習出来て、他のよりかなり良い。
VOLO: Vision Outlooker for Visual Recognition
ViTで、パッチを取らないでLocal WindowをつかったOutlook Attentionというのを提案して、追加データなしでSOTA達成。
Self-Supervised Learning with Swin Transformers
マイクロソフト論文。Self-supervised learningのMoCo V2とBYOLにTransformerのバックボーンを入れたMoBYをTuning。MoCo V3とDINO(バックボーンがDeiT)よりちょっと良い。
SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous Driving
自動運転向けのデータセット。semi-supervisedをやるにあたり、今までのはタグなしデータがないので増やした。1000万のラベルなしデータ、2万のラベル(カテゴリーは6種)ありデータ。
Are Self-Driving Cars Really Safer Than Human Drivers?
自動運転の安全性について。面白い!
Gradient-Based Interpretability Methods and Binarized Neural Networks
Binarized Neural Networksはエッジに良いけど、うまく行くのかは未だに謎。いろんなSaliency mapで出来てるかチェックしてみた。
Quantization Aware Training, ERNIE and Kurtosis Regularizer: an empirical study
すでに学習済みのネットワークがあるときに、量子化を考えた学習手法は使えないが、なんとかする方法見せるよ。
PVTv2: Improved Baselines with Pyramid Vision Transformer
Pyramid vision transformerのVersion 2.いろいろConvとか混ぜて、更に良くなった。
P2T: Pyramid Pooling Transformer for Scene Understanding
PoolingとDownsamplingを含めたViTで、Classification以外にも強い。このバックボーンでいろんなタスクでSOTA。
Real-time Semantic Segmentation via Spatial-detail Guided Context Propagation
Convベースで、Downsampling中のデータも使って細かいところまで色塗り出来るリアルタイムのSemantic Segmentation。
Capsule Network is Not More Robust than Convolutional Network
カプセルネットは実はCNNよりRobustではないらしい?
Exploring Corruption Robustness: Inductive Biases in Vision Transformers and MLP-Mixers
ViTはMLP-mixer、ResNet-50よりもCorruptionにRobust。
Student-Teacher Learning from Clean Inputs to Noisy Inputs
studentのデータがくっきりしなくてもtransfer learningが出来る理由をTheoreticalに調べた。