週刊Transformer（画像認識向け）3号 #機械学習

凄まじい勢いで増殖中のTransformer論文＋αにとりあえず、目を通しつつコメントを残していく。内容があっている保証はない。
今週はsurveyだらけ。

Advancing computer vision research with new Detectron2 Mask R-CNN baselines
Facebook AIブログ。Mask R-CNNより良いObject detectionを公開。

Exponential Moving Average Normalization for Self-supervised and Semi-supervised Learning
Amazon論文。student-teacherモデルのBNをEMANに代えるだけでteacherのgeneralizationが良くなり、最終的に精度が上がる。

Multi-head or Single-head? An Empirical Comparison for Transformer Training
NLP向けでTransformerのMulti-headは学習を安定する機能があるのであっていろんなAttentionをまとめて取れるからじゃないのではないか？　Single-headの層を組み合わせた方が精度良いかも。

Pay Better Attention to Attention: Head Selection in Multilingual and Multi-Domain Sequence Modeling
FAIR論文。NLP向け。Attention sharingにより、multilingualとかmulti-domainでうまい具合にparameter sharingが出来るのではないだろうか？

Efficient Deep Learning: A Survey on Making Deep Learning Models Smaller, Faster, and Better
Network圧縮のsurvey

Revisiting the Calibration of Modern Neural Networks
MLP-mixerとかViTとかのCNN以外は、Calibration（Classificationにおける自信度）が良い。
この頃のCNNは大きい方がCalibrationが悪いっぽいという2017年の論文。
On Calibration of Modern Neural Networks

The Modern Mathematics of Deep Learning
深層学習を数学的に説明しよう系論文のsurvey

Normalization Techniques in Deep Learning: Methods, Analyses, and Applications
Normalizationに関してCVPR2021のTutorial

How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers
Google論文。ViTのTrainingにはCNNよりもきついRegularization、多くのAugmentationが必要。いろんなセッティングで学習させた50000個のViTモデルを公開。

The Principles of Deep Learning Theory
教科書

Efficient Self-supervised Vision Transformers for Representation Learning
Transformerを使ったself-supervised learningのEsViTを開発。DINOとかMoCo-v3に似てる。

Knowledge Distillation and Student-Teacher Learning for Visual Intelligence: A Review and New Outlooks
Knowledge Distillationのsurvey

XCiT: Cross-Covariance Image Transformers
QとKのinteractionをtransposeすることで、quadraticのattention構造をlinearにした論文

Adapting Stepsizes by Momentumized Gradients Improves Optimization and Generalization
AdaMomentumという新しいOptimizerを開発。学習が速く、generalizationが良い。

Adaptive Learning Rate and Momentum for Training Deep Neural Networks
今のLoss landscapeを利用したConjugate Gradient with Quadratic line-searchという学習手法を提案。学習が速く、generalizationが良い。learning rateとmomentumのハイパラが不要。

Layer Folding: Neural Network Depth Reduction using Activation Linearization
Activationを使う量を学習し、Activationを通っていないLayerをくっつけることによりLayerを減らす。

The Lottery Ticket Hypothesis for Object Recognition
Lottery Ticket Hypothesisをobject detection, instance segmentation, and keypoint estimationに適用。

NoiseGrad: enhancing explanations by introducing stochasticity to model weights
multiplicative Gaussian noiseをWeightの方に入れる。SmoothGradより良い。混ぜるとなお良い。