https://arxiv.org/abs/1706.05394
Submitted on 16 Jun 2017
Cited by 1275
Universite de Motereal, Canadaなど Yoshua Bengio先生監修
結論
-
DLはまず単純なパターン学習(データ共通)をして、その後で丸暗記(少数・個別データ)する
- 丸暗記にはモデルのキャパが必要
- 丸暗記は決定境界が曖昧・近い
- Dropout等の正規化により丸暗記を防止できる。結果、汎化が改善することがある
感想
- 「パターン学習が先」「正規化で汎化改善かも」は現在でも重要
- この後、Double Decent・Overparamsの登場で規模は正義になる
- Overparamsでパターン学習と丸暗記が競合せずに達成される、と理解。中途半端なキャパだと丸暗記がパターン学習を妨げて精度低下する。
- 表現学習と最終層を分けていないが、インプットノイズは表現学習を妨げ、レーベルノイズは最終層学習を妨げる、と理解
- 実務上はインプットノイズよりレーベルノイズが問題=最終層のパターン学習問題
- 思い浮かぶ疑問
- パターン学習と丸暗記の違いの定義がない。データ共通頻度、というグラデーションでとりあえず理解。 グラデーション定義できたら、学習達成の指標ができそう
- Epoch-wise Double Descentとの整合性をどう理解するか? トレーニング損失が0になる前後でテスト損失が上昇する。丸暗記が途中で、パターン学習済を邪魔する?
詳細
勾配のジニ係数
-
パターン学習はデータの勾配に差が出る。丸暗記はどのデータも同等
- 通常データではステップ進むほど、勾配のジニ係数が上昇する(=特定のサンプルのみ勾配が強い)
- ランダムデータではステップ進んでも、勾配のジニ係数が上昇しない(=サンプルの勾配の強さに差がない)
パラメタ数
-
パターン学習はキャパ小さくてもできる。丸暗記にはキャパが必要
- 通常データではパラメタ数が少なくても高い精度で学習できる
- ランダムデータはパラメタ数を大きくしないと高い精度で学習できない
収束時間
-
パターン学習はキャパ小さくても効率よく収束する。丸暗記はキャパ利用で収束する
- 通常データはパラメタ数増やしても収束時間はそこまで短くならない
- ランダムデータはパラメタ数増やすと収束時間が短くなる
CSR(critical sample ratio)
-
パターン学習は決定境界周辺にアンチデータが少ない。丸暗記は決定境界周辺にアンチデータ多い
- 通常データでCSRはそこまで上昇しない。決定境界がはっきりしている
- ランダムデータでCSR上昇し続ける。決定境界が曖昧・近い
その他
- 1エポックだけ回すと、ランダムデータ(インプットでもレーベルでも)は学習しないが、通常データは学習する
- レーベルランダムデータでは、トレーニング精度が収束する前に、テスト精度がピークを迎える