0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

A Closer Look At Memorization in Deep Networks: パターン学習?丸暗記?

Last updated at Posted at 2023-03-04

https://arxiv.org/abs/1706.05394
Submitted on 16 Jun 2017
Cited by 1275
Universite de Motereal, Canadaなど Yoshua Bengio先生監修

結論

  • DLはまず単純なパターン学習(データ共通)をして、その後で丸暗記(少数・個別データ)する
    • 丸暗記にはモデルのキャパが必要
    • 丸暗記は決定境界が曖昧・近い
  • Dropout等の正規化により丸暗記を防止できる。結果、汎化が改善することがある

感想

  • 「パターン学習が先」「正規化で汎化改善かも」は現在でも重要
  • この後、Double Decent・Overparamsの登場で規模は正義になる
    • Overparamsでパターン学習と丸暗記が競合せずに達成される、と理解。中途半端なキャパだと丸暗記がパターン学習を妨げて精度低下する。
  • 表現学習と最終層を分けていないが、インプットノイズは表現学習を妨げ、レーベルノイズは最終層学習を妨げる、と理解
    • 実務上はインプットノイズよりレーベルノイズが問題=最終層のパターン学習問題
  • 思い浮かぶ疑問
    • パターン学習と丸暗記の違いの定義がない。データ共通頻度、というグラデーションでとりあえず理解。 グラデーション定義できたら、学習達成の指標ができそう
    • Epoch-wise Double Descentとの整合性をどう理解するか? トレーニング損失が0になる前後でテスト損失が上昇する。丸暗記が途中で、パターン学習済を邪魔する?

詳細

勾配のジニ係数

  • パターン学習はデータの勾配に差が出る。丸暗記はどのデータも同等
    • 通常データではステップ進むほど、勾配のジニ係数が上昇する(=特定のサンプルのみ勾配が強い)
    • ランダムデータではステップ進んでも、勾配のジニ係数が上昇しない(=サンプルの勾配の強さに差がない)

パラメタ数

  • パターン学習はキャパ小さくてもできる。丸暗記にはキャパが必要
    • 通常データではパラメタ数が少なくても高い精度で学習できる
    • ランダムデータはパラメタ数を大きくしないと高い精度で学習できない

収束時間

  • パターン学習はキャパ小さくても効率よく収束する。丸暗記はキャパ利用で収束する
    • 通常データはパラメタ数増やしても収束時間はそこまで短くならない
    • ランダムデータはパラメタ数増やすと収束時間が短くなる

CSR(critical sample ratio)

  • パターン学習は決定境界周辺にアンチデータが少ない。丸暗記は決定境界周辺にアンチデータ多い
    • 通常データでCSRはそこまで上昇しない。決定境界がはっきりしている
    • ランダムデータでCSR上昇し続ける。決定境界が曖昧・近い

その他

  • 1エポックだけ回すと、ランダムデータ(インプットでもレーベルでも)は学習しないが、通常データは学習する
  • レーベルランダムデータでは、トレーニング精度が収束する前に、テスト精度がピークを迎える
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?