この記事は自分用のメモみたいなものです.
ほぼ DeepL 翻訳でお送りします.
間違いがあれば指摘していだだけると嬉しいです.
翻訳元
Understanding deep learning requires rethinking generalization
前: ないよ
次: 【1 Introduction】
Abstract
訳文
巨大なサイズにもかかわらず, 成功した深層人工ニューラルネットワークは, トレーニングとテストの性能の間に驚くほど小さな差を示すことができる. 従来の常識では, 一般化誤差が小さいのは, モデルファミリーの特性か, トレーニング中に使用される正則化技術のいずれかに起因するとされてきた.
広範囲にわたる系統的な実験を通して, これらの従来のアプローチが, なぜ大規模なニューラルネットワークが実際にうまく一般化するのかを説明することができないのかを示す. 特に, 我々の実験では, 確率的勾配法を用いて訓練された画像分類のための最新の畳み込みネットワークが, 訓練データのランダムなラベリングに容易に適合することを明らかにした. この現象は, 明示的な正則化の影響を受けず, 真の画像を完全に構造化されていないランダムノイズで置き換えた場合にも起こる. 単純な深度 2 ニューラルネットワークが, パラメータの数がデータポイントの数を超えた時点で, すでに完全な有限サンプル表現力を持っていることを示す理論的な構築によって, これらの実験的知見を裏付ける.
我々は, 従来のモデルと比較することで, 我々の実験結果を解釈する.
原文
Despite their massive size, successful deep artificial neural networks can exhibit a remarkably small difference between training and test performance. Conventional wisdom attributes small generalization error either to properties of the model family, or to the regularization techniques used during training.
Through extensive systematic experiments, we show how these traditional approaches fail to explain why large neural networks generalize well in practice. Specifically, our experiments establish that state-of-the-art convolutional networks for image classification trained with stochastic gradient methods easily fit a random labeling of the training data. This phenomenon is qualitatively unaffected by explicit regularization, and occurs even if we replace the true images by completely unstructured random noise. We corroborate these experimental findings with a theoretical construction showing that simple depth two neural networks already have perfect finite sample expressivity as soon as the number of parameters exceeds the number of data points as it usually does in practice.
We interpret our experimental findings by comparison with traditional models.