1 日 1 回 (努力目標) 論文の Abstract を DeepL 翻訳の力を借りて読んでいきます.
この記事は自分用のメモみたいなものです.
ほぼ DeepL 翻訳でお送りします.
間違いがあれば指摘していだだけると嬉しいです.
翻訳元
The Early Phase of Neural Network Training
Abstract
訳文
最近の研究では, ニューラルネットワーク学習の多くの重要な側面が, 訓練のごく初期のイテレーションやエポックの中で行われていることが示されている. 例えば, スパースで訓練可能な部分ネットワークが出現し (Frankle et al., 2019), 勾配降下が小さな部分空間に移動し (Gur-Ari et al., 2018), ネットワークは臨界期を迎える (Achille et al., 2019). ここでは, ディープニューラルネットワークが訓練の初期段階で受ける変化を調べる. 我々は, 訓練の初期のイテレーション中にネットワークの状態を広範囲に測定し, Frankle et al. (2019) のフレームワークを活用して, 重み分布とデータセットの様々な側面への依存度を定量的に調べる. この枠組みの中では, ディープネットワークは符号を維持したままランダムな重みで再初期化してもロバストではなく, わずか数百回の反復の後でも重み分布は非常に非依存的であることを発見した. このような動作にもかかわらず, ぼやけた入力や補助的な自己教師付きタスクを用いた事前訓練では, 教師付きネットワークの変化を近似することができ, ラベルはこのプロセスを大幅に加速させるが, この変化は本質的にラベルに依存しないことを示唆している. これらの結果は, この学習の重要な初期期間に発生するネットワークの変化を明らかにするのに役立つ.
原文
Recent studies have shown that many important aspects of neural network learning take place within the very earliest iterations or epochs of training. For example, sparse, trainable sub-networks emerge (Frankle et al., 2019), gradient descent moves into a small subspace (Gur-Ari et al., 2018), and the network undergoes a critical period (Achille et al., 2019). Here, we examine the changes that deep neural networks undergo during this early phase of training. We perform extensive measurements of the network state during these early iterations of training and leverage the framework of Frankle et al. (2019) to quantitatively probe the weight distribution and its reliance on various aspects of the dataset. We find that, within this framework, deep networks are not robust to reinitializing with random weights while maintaining signs, and that weight distributions are highly non-independent even after only a few hundred iterations. Despite this behavior, pre-training with blurred inputs or an auxiliary self-supervised task can approximate the changes in supervised networks, suggesting that these changes are not inherently label-dependent, though labels significantly accelerate this process. Together, these results help to elucidate the network changes occurring during this pivotal initial period of learning.