LoginSignup
7
5

More than 1 year has passed since last update.

DoubleDescentを知る

Last updated at Posted at 2021-12-11

はじめに

近年話題になったDoubleDescentについて興味を持ち、調査していくとこちらの論文に行きつきました。
自身の理解を深めるためにも、日本語で要約したいと考え、この記事を書きました。思っていたのですが著作権的にアウトなので簡単な紹介だけしようと書きました。
数日前に投降したResNet18についての記事はこの論文内の実験に少しだけ関係あるものなので気が向いたらそちらも読んでいただければ嬉しいです。

目次

  1. Double Descentとは
  2. 論文概要
  3. 終わりに
  4. 参考文献

Double Descentとは

古典的な統計的学習理論によればbias-variance trade-offによってモデルは大きすぎても過適合となり汎化性能は低下するというという考えが一般的でした。
しかし、経験則的にはそのような現象は起こらず、大きいモデルのほうが良い性能を発揮することが多くありました。
あれれ~おかしいぞ~
となりましたが実は前者の理論(曰くlarger models are worse)に従う領域と後者の理論(曰くlarger models are better)に従う領域があり、二つの考えは実は相反しないことがわかりました。これに従って、モデルが大きくなるにつれて汎化性能が上がる(言い換えればtest errorが小さくなっていく)が一定より大きくなると汎化性能が下がる(言い換えればtest errorが大きくなっていく)が、また一定の大きさを超えると汎化性能が上がるという現象が観察でき、この現象はBelkin氏らによって“Double Descent”と呼ばれました。
image.png

Deep Double Descent: Where Bigger Models and More Data Hurt より引用

引用した画像ではResNet18を用いていますが、“Double Descent”を日本語で訳せば二重降下であるように、横軸でモデルが大きくなるにつれて二度Test Errorが降下しています。この画像の実験ではモデルの大きさを変えるにあたり、各層の出力チャネル数を[1*k,2*k,4*k,8*k]にしていてk=64のとき一般的なResNet18と同等です。
出力チャネル数がわからない場合数日前に投降した記事が役に立つかもしれません(ダイマ)

論文概要

書誌情報は以下のようになっています

  • タイトル
    • Deep Double Descent: Where Bigger Models and More Data Hurt
  • 著者
    • Preetum Nakkiran, Gal Kaplun, Yamini Bansal, Tristan Yang, Boaz Barak, Ilya Sutskever
  • 学会
    • ICLR2020
  • URL

この論文はHarvardの学生だったNakkiran氏がインターン時に書いたそうです。(何を食べればインターン先で論文が出せるのでしょうか...)
この論文の新規性?をざっくりとまとめると

  • “Double Descent”に対して統一的な指標を作り一般化を試みた
    • 統一的な指標:データの分布、モデルの複雑さや学習手法をまとめてEMC(Effective Model Complexity)を定義
    • EMCを基に仮説を提唱
  • モデルの大きさの他に学習の進みでもDouble Descentが起こることを示した(Epoch-wise Double Descent)
  • 以下を様々に組み合わせてDouble Descentを実証
    • アーキテクチャ(ResNet18, CNN etc)
    • データセット(CIFAR-10, CIFAR100 etc)
    • 最適化関数(SGD, Adam)

となっています。
言い換えれば、EMCの値の変化によってDouble Descentの動きが起こると仮説を立てている。また、このEMCから学習の進みに対してもDouble Descentが起こる。そしてなによりモデルの大きさ、学習の進みそれぞれの対してDouble Descentが起こるかどうかを先ほど引用したグラフの実験を筆頭に、様々な実験条件で試した。というのがこの論文のざっくりとした内容です。
ちなみに、論文内ではlebel noise という正解ラベルを一定確率で別なものに変える操作をしたときにDouble Descentを顕著に観察できている。しかし、Label NoiseがDouble Descentの直接の要因ではなくモデルの誤判定によるものであり、Label Noiseはあくまでデータセットの分布を難しくし、モデルの誤判定を増加させているだけと論文内で述べられています。

終わりに

間違っているところがあれば気軽にマサカリ投げてもらえると嬉しいです。
この記事はアドベントカレンダー前日にお酒を飲んで死んでいるため後日更新があります。

2021/12/31 更新済み。年内滑り込みセーフ。よいお年を。

参考文献

7
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7
5