LoginSignup
4
2

More than 1 year has passed since last update.

週刊Transformer(画像認識向け)3号

Last updated at Posted at 2021-06-24

凄まじい勢いで増殖中のTransformer論文+αにとりあえず、目を通しつつコメントを残していく。内容があっている保証はない。
今週はsurveyだらけ。

Advancing computer vision research with new Detectron2 Mask R-CNN baselines
Facebook AIブログ。Mask R-CNNより良いObject detectionを公開。

Exponential Moving Average Normalization for Self-supervised and Semi-supervised Learning
Amazon論文。student-teacherモデルのBNをEMANに代えるだけでteacherのgeneralizationが良くなり、最終的に精度が上がる。

Multi-head or Single-head? An Empirical Comparison for Transformer Training
NLP向けでTransformerのMulti-headは学習を安定する機能があるのであっていろんなAttentionをまとめて取れるからじゃないのではないか? Single-headの層を組み合わせた方が精度良いかも。

Pay Better Attention to Attention: Head Selection in Multilingual and Multi-Domain Sequence Modeling
FAIR論文。NLP向け。Attention sharingにより、multilingualとかmulti-domainでうまい具合にparameter sharingが出来るのではないだろうか?

Efficient Deep Learning: A Survey on Making Deep Learning Models Smaller, Faster, and Better
Network圧縮のsurvey

Revisiting the Calibration of Modern Neural Networks
MLP-mixerとかViTとかのCNN以外は、Calibration(Classificationにおける自信度)が良い。
この頃のCNNは大きい方がCalibrationが悪いっぽいという2017年の論文。
On Calibration of Modern Neural Networks

The Modern Mathematics of Deep Learning
深層学習を数学的に説明しよう系論文のsurvey

Normalization Techniques in Deep Learning: Methods, Analyses, and Applications
Normalizationに関してCVPR2021のTutorial

How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers
Google論文。ViTのTrainingにはCNNよりもきついRegularization、多くのAugmentationが必要。いろんなセッティングで学習させた50000個のViTモデルを公開。

The Principles of Deep Learning Theory
教科書


Efficient Self-supervised Vision Transformers for Representation Learning
Transformerを使ったself-supervised learningのEsViTを開発。DINOとかMoCo-v3に似てる。

Knowledge Distillation and Student-Teacher Learning for Visual Intelligence: A Review and New Outlooks
Knowledge Distillationのsurvey

XCiT: Cross-Covariance Image Transformers
QとKのinteractionをtransposeすることで、quadraticのattention構造をlinearにした論文

Adapting Stepsizes by Momentumized Gradients Improves Optimization and Generalization
AdaMomentumという新しいOptimizerを開発。学習が速く、generalizationが良い。

Adaptive Learning Rate and Momentum for Training Deep Neural Networks
今のLoss landscapeを利用したConjugate Gradient with Quadratic line-searchという学習手法を提案。学習が速く、generalizationが良い。learning rateとmomentumのハイパラが不要。

Layer Folding: Neural Network Depth Reduction using Activation Linearization
Activationを使う量を学習し、Activationを通っていないLayerをくっつけることによりLayerを減らす。

The Lottery Ticket Hypothesis for Object Recognition
Lottery Ticket Hypothesisをobject detection, instance segmentation, and keypoint estimationに適用。

NoiseGrad: enhancing explanations by introducing stochasticity to model weights
multiplicative Gaussian noiseをWeightの方に入れる。SmoothGradより良い。混ぜるとなお良い。

4
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
2