Takashi Ishida, Ikko Yamane, Tomoya Sakai, Gang Niu, Masashi Sugiyama
杉山先生の理研AIP。
概要
- パラメータの数が十分大きいネットワークでは訓練データを完全に記憶し、訓練エラーが0になった後もロスが小さくなっていく。
- テストエラーは逆に上昇する。いわゆる過学習。
- 訓練ロスを十分小さい値(flooding level)周辺に維持するように学習すると過学習を抑制できる。
- 具体的にはflooding levelより低くなったら gradient descent でなく ascent する。1行で実装できる。
- 副作用として性能も向上した。
評価
合成データと、MNISTなどのベンチマークで評価。early stopping無しでも安定して性能がでている。early stoppingを行った場合よりも多くの場合性能が向上している。