この記事は自分用のメモみたいなものです.
ほぼ DeepL 翻訳でお送りします.
間違いがあれば指摘していだだけると嬉しいです.
翻訳元
[Deep Double Descent: Where Bigger Models and More Data Hurt ]
(https://arxiv.org/abs/1912.02292)
前: 【4 EXPERIMENTAL SETUP】
次: 【6 EPOCH-WISE DOUBLE DESCENT】
5 MODEL-WISE DOUBLE DESCENT
訳文
このセクションでは, (一定の大きな最適化ステップ数に対して) 学習を完了するまで学習した場合の, サイズが増加するモデルのテスト誤差を研究する. 我々は, 異なるアーキテクチャ, データセット, オプティマイザ, およびトレーニング手順において, モデルワイズ二重降下を実証する. 臨界領域は補間点付近で明らかに異なるテスト挙動を示し, label noise のある設定ではテスト誤差のピークが顕著になることがよくある.
このセクションの実験 (図 4, 5, 6, 7, 8) については, 補間しきい値を増加させるすべての変更 (label noise の追加, data augmentation の使用, 訓練サンプル数の増加など) は, それに対応してテスト誤差のピークをより大きなモデルにシフトさせていることに注目してください. これらのモデルの early-stopping 挙動を示す追加のプロットと, label noise のない設定での二重降下を示す追加の実験 (例えば, 図 19) は, 付録 E.2 にある. 我々はまた, label noise のない設定でもロバストなテスト誤差のピークを持つ, model-wise double descent も観察した. 付録 E.2 の図 26 を参照のこと.
議論. ディープニューラルネットワークにおける model-wise double descent の背後にあるメカニズムを完全に理解することは重要な未解決の問題である. しかし, model-wise double descent の類似物は, 線形モデルでも発生する. 最近の理論的研究の流れは, この設定を分析している (Bartlett et al. (2019); Muthukumar et al. (2019); Belkin et al. (2019); Mei & Montanari (2019); Hastie et al. (2019)). 我々は, 同様のメカニズムがディープニューラルネットワークにおいても働いている可能性があると考えている.
非公式には, 我々の直感では, 補間しきい値でのモデルサイズでは, 訓練データに適合するモデルは事実上 1 つしかなく,この補間モデルは訓練集合内のノイズやモデルの仕様ミスに対して非常に敏感であるということである. つまり, モデルは訓練データに適合することがギリギリなので, わずかにノイズがあったり, 仕様が間違っているラベルに適合することは, そのグローバル構造を破壊し, 高いテスト誤差
をもたらす. (付録の図 28 を参照. このノイズ感受性を示す実験では, アンサンブルが臨界パラメータ化されたレジームで有意に役立つことを示している). しかし, オーバーパラメータ化されたモデルでは, 訓練セットに適合する補間モデルが多数存在し, SGD は, ノイズを "記憶" (または "吸収") しながらも分布上で良好な性能を発揮するモデルを見つけることができる.
上記の直感は, 線形モデルに対して理論的に正当化される. 一般的に, この状況は線形モデルではラベルノイズがなくても顕在化し (Mei & Montanari (2019)), 真の分布の構造とモデルファミリーの間にモデルの誤仕様がある場合には必ず発生する. この直感はディープラーニングにも当てはまると考えられ, 我々の実験と一致する.
(a) CIFAR-100. label noise がなくてもテスト誤差にピークがある.
(b) CIFAR-10. label noise のない補間点付近では試験誤差に "plateau (台地)" があり, label noise が追加された場合にはピークに発展する.
図 4: ResNet18s の Model-wise double descent. CIFAR-100 と CIFAR-10 で学習し, label noiseを変化させた. 4K epochs で LR 0.0001 の Adam を用いて最適化し, data-augmentation した.
図 5:Data Augmentation の効果. CIFAR-10 上の 5-layer CNNs, data-augmentation の有無. Data-augmentation は補間しきい値を右にシフトさせ, それに応じてテスト誤差のピークをシフトさせている. 500K ステップで SGD を使用して最適化. より大きなモデルについては, 図 27 を参照.
図 6: SGD vs. Adam. CIFAR-10 上の 5-layer CNNs, label noise なし, data augmentation なし. SGD では 500K gradient steps を, Adam では 4K epochs で最適化.
図 7: ノイズレス設定. label noise の CIFAR-100 上の 5 層 CNN; テスト誤差のピークに注意. SGD を用いて学習し, data augmentation を行わなかった. これらのモデルの early-stopping 挙動については, 図 20 を参照.
図 8: 言語翻訳タスクにおける Transformer: Multi-head-attention encoderdecoder Transformer モデルは, IWSLT‘14 ドイツ語-英語 (16 万文) および WMT‘14 英語-フランス語 (20 万文にサブサンプリング) のデータセットで, ラベル付けされた平滑化クロスエントロピー損失を伴う 80k の勾配ステップで訓練された. テスト損失はトークンごとの perplexity として測定される.
原文
In this section, we study the test error of models of increasing size, when training to completion (for a fixed large number of optimization steps). We demonstrate model-wise double descent across different architectures, datasets, optimizers, and training procedures. The critical region exhibits distinctly different test behavior around the interpolation point and there is often a peak in test error that becomes more prominent in settings with label noise.
For the experiments in this section (Figures 4, 5, 6, 7, 8), notice that all modifications which increase the interpolation threshold (such as adding label noise, using data augmentation, and increasing the number of train samples) also correspondingly shift the peak in test error towards larger models. Additional plots showing the early-stopping behavior of these models, and additional experiments showing double descent in settings with no label noise (e.g. Figure 19) are in Appendix E.2. We also observed model-wise double descent for adversarial training, with a prominent robust test error peak even in settings without label noise. See Figure 26 in Appendix E.2.
Discussion. Fully understanding the mechanisms behind model-wise double descent in deep neural networks remains an important open question. However, an analog of model-wise double descent occurs even for linear models. A recent stream of theoretical works analyzes this setting (Bartlett et al. (2019); Muthukumar et al. (2019); Belkin et al. (2019); Mei & Montanari (2019); Hastie et al. (2019)). We believe similar mechanisms may be at work in deep neural networks.
Informally, our intuition is that for model-sizes at the interpolation threshold, there is effectively only one model that fits the train data and this interpolating model is very sensitive to noise in the train set and/or model mis-specification. That is, since the model is just barely able to fit the train data, forcing it to fit even slightly-noisy or mis-specified labels will destroy its global structure, and result in high test error. (See Figure 28 in the Appendix for an experiment demonstrating this noise sensitivity, by showing that ensembling helps significantly in the critically-parameterized regime). However for over-parameterized models, there are many interpolating models that fit the train set, and SGD is able to find one that “memorizes” (or “absorbs”) the noise while still performing well on the distribution.
The above intuition is theoretically justified for linear models. In general, this situation manifests even without label noise for linear models (Mei & Montanari (2019)), and occurs whenever there is model mis-specification between the structure of the true distribution and the model family. We believe this intuition extends to deep learning as well, and it is consistent with our experiments.
(a) CIFAR-100. There is a peak in test error even with no label noise.
(b) CIFAR-10. There is a “plateau” in test error around the interpolation point with no label noise, which develops into a peak for added label noise.
Figure 4: Model-wise double descent for ResNet18s. Trained on CIFAR-100 and CIFAR-10, with varying label noise. Optimized using Adam with LR 0.0001 for 4K epochs, and data-augmentation.
Figure 5: Effect of Data Augmentation. 5-layer CNNs on CIFAR10, with and without dataaugmentation. Data-augmentation shifts the interpolation threshold to the right, shifting the test error peak accordingly. Optimized using SGD for 500K steps. See Figure 27 for larger models.
Figure 6: SGD vs. Adam. 5-Layer CNNs on CIFAR-10 with no label noise, and no data augmentation. Optimized using SGD for 500K gradient steps, and Adam for 4K epochs.
Figure 7: Noiseless settings. 5-layer CNNs on CIFAR-100 with no label noise; note the peak in test error. Trained with SGD and no data augmentation. See Figure 20 for the early-stopping behavior of these models.
Figure 8: Transformers on language translation tasks: Multi-head-attention encoderdecoder Transformer model trained for 80k gradient steps with labeled smoothed cross-entropy loss on IWSLT‘14 German-to-English (160K sentences) and WMT‘14 English-to-French (subsampled to 200K sentences) dataset. Test loss is measured as pertoken perplexity.