0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

【今日のアブストラクト】The large learning rate phase of deep learning: the catapult mechanism【論文 DeepL 翻訳】

Last updated at Posted at 2020-03-26

1 日 1 回 論文の Abstract を DeepL 翻訳の力を借りて読んでいきます.

この記事は自分用のメモみたいなものです.
ほぼ DeepL 翻訳でお送りします.
間違いがあれば指摘していだだけると嬉しいです.

翻訳元
The large learning rate phase of deep learning: the catapult mechanism

Abstract

訳文

初期学習率の選択は, ディープネットワークの性能に大きな影響を与える可能性がある. 本研究では, 解答可能な学習ダイナミクスを持つニューラルネットワークを提示し, その予測を実際の深層学習環境で実証的に確認する. その結果, 学習速度が小さい場合と大きい場合では, ネットワークの挙動が大きく異なることがわかった. この $2$ つの領域は相転移によって分離されている. 学習率が小さい段階では, 無限に広いニューラルネットワークの既存の理論を用いて学習を理解することができる. 大きな学習率では, モデルは勾配降下ダイナミクスがより平坦な最小値に収束することを含む, 質的に異なる現象を捉えている. 我々のモデルの重要な予測の一つは, 大規模で安定した学習率の狭い範囲である. 我々は, 現実的なディープラーニングの設定において, 我々のモデルの予測と学習ダイナミクスの間に良い一致が見られることを発見した. さらに, このような環境での最適な性能は, 大規模な学習率の段階で発見されることが多いことがわかった. 我々の結果は, 異なる学習率で学習されたモデルの特徴に光を当てるものであると信じている. 特に, 既存のワイドニューラルネットワーク理論と, 非線形で大きな学習率の訓練ダイナミクスとの間のギャップを埋めるものである.

原文

The choice of initial learning rate can have a profound effect on the performance of deep networks. We present a class of neural networks with solvable training dynamics, and confirm their predictions empirically in practical deep learning settings. The networks exhibit sharply distinct behaviors at small and large learning rates. The two regimes are separated by a phase transition. In the small learning rate phase, training can be understood using the existing theory of infinitely wide neural networks. At large learning rates the model captures qualitatively distinct phenomena, including the convergence of gradient descent dynamics to flatter minima. One key prediction of our model is a narrow range of large, stable learning rates. We find good agreement between our model's predictions and training dynamics in realistic deep learning settings. Furthermore, we find that the optimal performance in such settings is often found in the large learning rate phase. We believe our results shed light on characteristics of models trained at different learning rates. In particular, they fill a gap between existing wide neural network theory, and the nonlinear, large learning rate, training dynamics relevant to practice.

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?