0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Deep Double Descent: 丸暗記付近で、テスト損失が一度上昇

Last updated at Posted at 2023-03-07

https://arxiv.org/abs/1706.05394
Submitted on 4 Dec 2019
Cited by 557
OpenAI

結論

  • Model-Wide DD
    • critical params = ちょうど丸暗記ができる能力付近で、一度テスト損失が上昇する
    • ノイズは損失上昇を大きくする
  • Epoch-Wise DD
    • critical paramsで、ちょうど丸暗記しそうなエポック付近で、一度テスト損失が上昇する
    • ノイズは損失上昇を大きくする

感想

  • 中途半端なモデルサイズはノイズに弱い
    • 実務では小さく有効性を確認して、どかっと大きくする
    • EMCは分からない...が、例えばbertでは6mデータに対して110mパラメター
  • なぜcritical paramsでテスト損失上昇するのか、背景は語られていない。
    • トレーニング損失が0になる前後で、テスト損失が上昇
    • 後続論文では、ノイズがDDの条件と提起されている ノイズが大きいとciritical params超えてoverparamsでも、DD起こる。個人的には実務上の感覚とも合う
      • 当論文では、ノイズはDDの条件とされていない。バイアスバリアンスで説明される
    • ノイズがまずパターン学習としてされる問題(多様体としての次元・半径が大きく、テスト時のサンプルに適用されてしまう問題)と、とりあえず理解

詳細

  • パラメター軸でもエポック軸でも、テスト損失が存在する薄い谷が見える
    Screen Shot 2023-03-04 at 16.23.37.png

Model-Wise DD

  • ノイズがなければ、損失上昇はないように見える
    • CIFAR-100にはそもそもノイズが含まれる
      Screen Shot 2023-03-07 at 10.13.26.png

Epoch-Wise DD

  • ノイズがなければ、損失上昇はないように見える
    Screen Shot 2023-03-07 at 10.14.14.png
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?