この記事は自分用のメモみたいなものです.
ほぼ DeepL 翻訳でお送りします.
間違いがあれば指摘していだだけると嬉しいです.
翻訳元
[Deep Double Descent: Where Bigger Models and More Data Hurt ]
(https://arxiv.org/abs/1912.02292)
前: 【7 SAMPLE-WISE NON-MONOTONICITY】
次: 無いよ
8 CONCLUSION AND DISCUSSION
訳文
我々は, 一般化された double descent 仮説を紹介する: モデルと訓練手順の Effective Model Complexity が訓練サンプル数に匹敵する場合, モデルと訓練手順は非定型的な振る舞いを示す. 我々はこの仮説を現代の深層学習の設定において広範な証拠を提供し, データセット, アーキテクチャ, および訓練手順の選択にロバストであることを示す. 特に, 我々は現代のディープネットワークについて "model-wise double descent" を実証し, より大きなモデルではパフォーマンスが悪くなる可能性がある領域を特徴づける. また, 我々の知る限りでは, これまで提案されていなかった "epoch-wise double descent" を実証する, 最後に, double descent 現象が, より多くのデータでの学習がテスト性能の低下をもたらすレジームにつながることを示す. 予備的な結果は, 固定モデルの正則化の量を変化させても double descent 現象が維持されることを示唆している (図 22 参照).
また, 我々のクリティカルレジームの特徴付けは, 専門家にとって有用な考え方を提供してくれると信じている - モデルと訓練手順が訓練集合にギリギリフィットすることができた場合, モデルや訓練手順に小さな変更を加えることで, 予期せぬ挙動をもたらす可能性がある (例えば, モデルを少し大きくしたり小さくしたり, 正則化を変更したりすることで, テストのパフォーマンスを損なう可能性がある).
Early stopping. 我々が強調する現象の多くは, 最適な early-stopping では起こらないことが多いことに注意する必要がある. しかし, これは我々の一般化された二重降下仮説と一致する: early stopping によりモデルが訓練誤差 0 に到達できない場合, EMC が訓練サンプル数に到達しないので, double-descent が起こるとは期待できない. さらに, 最適な early stopping を行っても, モデルによる double descent が起こり得る少なくとも一つの設定を示している (label noise のない CIFAR-100 上の ResNets, 図 19 参照). 最適な early-stopping を使用した場合に, より多くのデータを傷つけるような設定は観察されていない. しかし, このようなことが起こらない理由はわかっていない. double descent の最適な early stopping 動作を完全に理解することは, 今後の研究のための重要な未解決の問題として残しておく.
Label Noise. 我々の実験では, label noise のある設定で double descent が最も強く観察された. しかし, この効果は根本的に label noise の影響ではなく, model mis-specification によるものだと考えられる. 例えば, label noise が真のランダムではなく, 擬似ランダム (学習される分類器のファミリに関して) である設定を考えてみる. この設定では, ベイズ最適分類器の性能は変化しないが (擬似ランダムなノイズは決定論的で反転可能なので), label noise が真にランダムな場合と同じ double descent が観測される. このように, label noise を追加することは, 分布を "硬く" するための単なる代理, - つまり model mis-specification の量を増やすためのものだと我々は考える.
Model Complexity の他の概念. 我々の考える Effective Model Complexity の概念は, Rademacher complexity のような古典的な複雑さの概念に関連しているが, いくつかの重要な点で異なっている: (1) EMC はデータ分布の真のラベルに依存すること, (2) EMC はモデルアーキテクチャだけでなく訓練手順に依存すること, である.
特徴 (1) と (2) を含まないモデルの複雑さの他の概念は, double-descent ピークの位置を特徴付けるのに十分ではない. 例えば, Rademacher complexity は, ランダムにラベル付けされた訓練セットに適合するモデルアーキテクチャの能力によって決定される. しかし, Rademacher complexity と VC 次元は, ラベルの分布に依存しないので, model-wise double descent ピークの位置を決定するには不十分であり - 我々の実験では, ラベルノイズを加えるとピークの位置がシフトすることが示されている.
さらに, Rademacher complexity と VC 次元は, モデルファミリとデータ分布にのみ依存し, モデルを見つけるために使用される訓練手順には依存しない. したがって, "epoch-wise" double descentのような train-time double-descent の効果や, ピーク位置に対する data-augmentation の効果を捉えることはできない.
原文
We introduce a generalized double descent hypothesis: models and training procedures exhibit atypical behavior when their Effective Model Complexity is comparable to the number of train samples. We provide extensive evidence for our hypothesis in modern deep learning settings, and show that it is robust to choices of dataset, architecture, and training procedures. In particular, we demonstrate “model-wise double descent” for modern deep networks and characterize the regime where bigger models can perform worse. We also demonstrate “epoch-wise double descent,” which, to the best of our knowledge, has not been previously proposed. Finally, we show that the double descent phenomenon can lead to a regime where training on more data leads to worse test performance. Preliminary results suggest that double descent also holds as we vary the amount of regularization for a fixed model (see Figure 22).
We also believe our characterization of the critical regime provides a useful way of thinking for practitioners—if a model and training procedure are just barely able to fit the train set, then small changes to the model or training procedure may yield unexpected behavior (e.g. making the model slightly larger or smaller, changing regularization, etc. may hurt test performance).
Early stopping. We note that many of the phenomena that we highlight often do not occur with optimal early-stopping. However, this is consistent with our generalized double descent hypothesis: if early stopping prevents models from reaching 0 train error then we would not expect to see double-descent, since the EMC does not reach the number of train samples. Further, we show at least one setting where model-wise double descent can still occur even with optimal early stopping (ResNets on CIFAR-100 with no label noise, see Figure 19). We have not observed settings where more data hurts when optimal early-stopping is used. However, we are not aware of reasons which preclude this from occurring. We leave fully understanding the optimal early stopping behavior of double descent as an important open question for future work.
Label Noise. In our experiments, we observe double descent most strongly in settings with label noise. However, we believe this effect is not fundamentally about label noise, but rather about model mis-specification. For example, consider a setting where the label noise is not truly random, but rather pseudorandom (with respect to the family of classifiers being trained). In this setting, the performance of the Bayes optimal classifier would not change (since the pseudorandom noise is deterministic, and invertible), but we would observe an identical double descent as with truly random label noise. Thus, we view adding label noise as merely a proxy for making distributions “harder”— i.e. increasing the amount of model mis-specification.
Other Notions of Model Complexity. Our notion of Effective Model Complexity is related to classical complexity notions such as Rademacher complexity, but differs in several crucial ways: (1) EMC depends on the true labels of the data distribution, and (2) EMC depends on the training procedure, not just the model architecture.
Other notions of model complexity which do not incorporate features (1) and (2) would not suffice to characterize the location of the double-descent peak. Rademacher complexity, for example, is determined by the ability of a model architecture to fit a randomly-labeled train set. But Rademacher complexity and VC dimension are both insufficient to determine the model-wise double descent peak location, since they do not depend on the distribution of labels— and our experiments show that adding label noise shifts the location of the peak.
Moreover, both Rademacher complexity and VC dimension depend only on the model family and data distribution, and not on the training procedure used to find models. Thus, they are not capable of capturing train-time double-descent effects, such as “epoch-wise” double descent, and the effect of data-augmentation on the peak location.