凄まじい勢いで増殖中のTransformer論文+αにとりあえず、目を通しつつコメントを残していく。内容があっている保証はない。
今週はsurveyだらけ。
Advancing computer vision research with new Detectron2 Mask R-CNN baselines
Facebook AIブログ。Mask R-CNNより良いObject detectionを公開。
Exponential Moving Average Normalization for Self-supervised and Semi-supervised Learning
Amazon論文。student-teacherモデルのBNをEMANに代えるだけでteacherのgeneralizationが良くなり、最終的に精度が上がる。
Multi-head or Single-head? An Empirical Comparison for Transformer Training
NLP向けでTransformerのMulti-headは学習を安定する機能があるのであっていろんなAttentionをまとめて取れるからじゃないのではないか? Single-headの層を組み合わせた方が精度良いかも。
Pay Better Attention to Attention: Head Selection in Multilingual and Multi-Domain Sequence Modeling
FAIR論文。NLP向け。Attention sharingにより、multilingualとかmulti-domainでうまい具合にparameter sharingが出来るのではないだろうか?
Efficient Deep Learning: A Survey on Making Deep Learning Models Smaller, Faster, and Better
Network圧縮のsurvey
Revisiting the Calibration of Modern Neural Networks
MLP-mixerとかViTとかのCNN以外は、Calibration(Classificationにおける自信度)が良い。
この頃のCNNは大きい方がCalibrationが悪いっぽいという2017年の論文。
On Calibration of Modern Neural Networks
The Modern Mathematics of Deep Learning
深層学習を数学的に説明しよう系論文のsurvey
Normalization Techniques in Deep Learning: Methods, Analyses, and Applications
Normalizationに関してCVPR2021のTutorial
How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers
Google論文。ViTのTrainingにはCNNよりもきついRegularization、多くのAugmentationが必要。いろんなセッティングで学習させた50000個のViTモデルを公開。
The Principles of Deep Learning Theory
教科書
Efficient Self-supervised Vision Transformers for Representation Learning
Transformerを使ったself-supervised learningのEsViTを開発。DINOとかMoCo-v3に似てる。
Knowledge Distillation and Student-Teacher Learning for Visual Intelligence: A Review and New Outlooks
Knowledge Distillationのsurvey
XCiT: Cross-Covariance Image Transformers
QとKのinteractionをtransposeすることで、quadraticのattention構造をlinearにした論文
Adapting Stepsizes by Momentumized Gradients Improves Optimization and Generalization
AdaMomentumという新しいOptimizerを開発。学習が速く、generalizationが良い。
Adaptive Learning Rate and Momentum for Training Deep Neural Networks
今のLoss landscapeを利用したConjugate Gradient with Quadratic line-searchという学習手法を提案。学習が速く、generalizationが良い。learning rateとmomentumのハイパラが不要。
Layer Folding: Neural Network Depth Reduction using Activation Linearization
Activationを使う量を学習し、Activationを通っていないLayerをくっつけることによりLayerを減らす。
The Lottery Ticket Hypothesis for Object Recognition
Lottery Ticket Hypothesisをobject detection, instance segmentation, and keypoint estimationに適用。
NoiseGrad: enhancing explanations by introducing stochasticity to model weights
multiplicative Gaussian noiseをWeightの方に入れる。SmoothGradより良い。混ぜるとなお良い。