https://arxiv.org/abs/1706.05394
Submitted on 4 Dec 2019
Cited by 557
OpenAI
結論
- Model-Wide DD
- critical params = ちょうど丸暗記ができる能力付近で、一度テスト損失が上昇する
- ノイズは損失上昇を大きくする
- Epoch-Wise DD
- critical paramsで、ちょうど丸暗記しそうなエポック付近で、一度テスト損失が上昇する
- ノイズは損失上昇を大きくする
感想
-
中途半端なモデルサイズはノイズに弱い
- 実務では小さく有効性を確認して、どかっと大きくする
- EMCは分からない...が、例えばbertでは6mデータに対して110mパラメター
- なぜcritical paramsでテスト損失上昇するのか、背景は語られていない。
- トレーニング損失が0になる前後で、テスト損失が上昇
-
後続論文では、ノイズがDDの条件と提起されている ノイズが大きいとciritical params超えてoverparamsでも、DD起こる。個人的には実務上の感覚とも合う
- 当論文では、ノイズはDDの条件とされていない。バイアスバリアンスで説明される
- ノイズがまずパターン学習としてされる問題(多様体としての次元・半径が大きく、テスト時のサンプルに適用されてしまう問題)と、とりあえず理解