0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

Deep Double Descent: Where Bigger Models and More Data Hurt 【6 EPOCH-WISE DOUBLE DESCENT】【論文 DeepL 翻訳】

Last updated at Posted at 2020-06-14

この記事は自分用のメモみたいなものです.
ほぼ DeepL 翻訳でお送りします.
間違いがあれば指摘していだだけると嬉しいです.

翻訳元
[Deep Double Descent: Where Bigger Models and More Data Hurt ]
(https://arxiv.org/abs/1912.02292)

前: 【5 MODEL-WISE DOUBLE DESCENT】
次: 【7 SAMPLE-WISE NON-MONOTONICITY】

6 EPOCH-WISE DOUBLE DESCENT

訳文

このセクションでは、訓練エポックに関する double-descent の新しい形態を実証する. それは, 我々の統一的な effective model complexity (EMC) と一般化された double descent 仮説の見解と一致する. 訓練時間を長くすると EMC が増加し - その結果, 十分に大きなモデルが訓練の過程でアンダーパラメータからオーバーパラメータへと移行する.

図 9 に示されているように, 十分に大きなモデルでは, テスト誤差が最初に減少し, 補間しきい値付近で増加し, その後再び減少するという "double descent" の挙動をとる. 対照的に, "中規模" モデルでは, 完了までのトレーニングが $\approx 0$ エラーにかろうじて到達するだけで, トレーニング時間の関数としてのテストエラーは, 早期に停止する方が良い古典的なUのような曲線に従う. 近似しきい値に到達するには小さすぎるモデルは, 訓練時間の増加が単調にテスト誤差を減少させる "under parameterized" レジームにとどまる. 我々の実験 (図 10) は, データセットとアーキテクチャの多くの設定が, label noise の存在下で, epoch-wise double descent であることを示す. さらに, この現象はオプティマイザのバリエーションと学習速度のスケジュールにわたってロバストである (付録 E.1 の追加実験を参照のこと). model-wise double descent と同様に, テストエラーのピークは label noise によって強調される.

従来の常識では, 学習は 2 つのフェーズに分けて行われるとされている. (1) 第 1 段階では, ネットワークは一般化ギャップの小さい関数を学習する (2) 第 2 段階では, ネットワークはデータに over-fit し始め, テスト誤差が増加する. 我々の実験では, これが全体像ではないことが示唆されており, いくつかの状況では, テスト誤差が再び減少し, 学習終了時には最初の最小値に比べて低い値になる可能性がある ($10%$ のlabel noise については図 10 を参照).

G9.png

図 9: 左: 3 つのレジームにおけるモデルの学習ダイナミクス. モデルは CIFAR10 上の ResNet18s で, label noise は $20%$ で、Adam を用いて学習率 0.0001 で訓練し, data augmentation を行った. 右図: (モデルサイズ × エポック数) にわたるテスト誤差. このプロットの3つのスライスを左に示す.

G10.png

図 10: ResNet18 と CNN の Epoch-wise double descent (width=128). 学習率 0.0001 の Adam を用いて学習した ResNet と, 逆平方根学習率の SGD を用いて学習した CNN.

原文

In this section, we demonstrate a novel form of double-descent with respect to training epochs, which is consistent with our unified view of effective model complexity (EMC) and the generalized double descent hypothesis. Increasing the train time increases the EMC—and thus a sufficiently large model transitions from underto over-parameterized over the course of training.

As illustrated in Figure 9, sufficiently large models can undergo a “double descent” behavior where test error first decreases then increases near the interpolation threshold, and then decreases again. In contrast, for “medium sized” models, for which training to completion will only barely reach ≈ 0 error, the test error as a function of training time will follow a classical U-like curve where it is better to stop early. Models that are too small to reach the approximation threshold will remain in the “under parameterized” regime where increasing train time monotonically decreases test error. Our experiments (Figure 10) show that many settings of dataset and architecture exhibit epoch-wise double descent, in the presence of label noise. Further, this phenomenon is robust across optimizer variations and learning rate schedules (see additional experiments in Appendix E.1). As in model-wise double descent, the test error peak is accentuated with label noise.

Conventional wisdom suggests that training is split into two phases: (1) In the first phase, the network learns a function with a small generalization gap (2) In the second phase, the network starts to over-fit the data leading to an increase in test error. Our experiments suggest that this is not the complete picture—in some regimes, the test error decreases again and may achieve a lower value at the end of training as compared to the first minimum (see Fig 10 for $10%$ label noise).

G9.png

Figure 9: Left: Training dynamics for models in three regimes. Models are ResNet18s on CIFAR10 with 20% label noise, trained using Adam with learning rate 0.0001, and data augmentation. Right: Test error over (Model size × Epochs). Three slices of this plot are shown on the left.

G10.png

Figure 10: Epoch-wise double descent for ResNet18 and CNN (width=128). ResNets trained using Adam with learning rate 0.0001, and CNNs trained with SGD with inverse-squareroot learning rate.

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?