概要
この記事では、NeurIPS2022の枝刈り論文を紹介します。1
その1
Pruning’s Effect on Generalization Through the Lens of Training and Regularization
- 概要:枝刈りで汎化性が上がるか調査した
- 研究機関:Google
- 新規性:汎化性向上は枝刈り以外(繰り返し学習等)にあることを示した。
- キモ:Augmented training algorithm (刈らずに繰り返し学習だけする)で汎化性能向上を切り分けた。
(補足:OpenReviewでの議論も参照のこと)
Weighted Mutual Learning with Diversity-Driven Model Compression
- 概要:オンライン蒸留によるモデル圧縮の改良
- 新規性:従来のメモリが多い課題を解決
- キモ:学習の教師・精度で重み共有し、刈る割合を変えて蒸留する。これをpyramidでやる。最適化はbi-level optimizationとする。
- 評価:MobileNetV2, ResNetで実験
SInGE: Sparsity via Integrated Gradients Estimation of Neuron Relevance
https://openreview.net/forum?id=oQIJsMlyaW_
- 概要:枝刈りの評価指標の提案
- 新規性:そのニューロンより先の情報も加味して測る
- キモ:説明可能性の分野(Grad-CAM等)から取ってきたアイデアのIntegrated Gradientを使った
- 評価:ImageNetで他と比較
Sparse Winning Tickets are Data-Efficient Image Recognizers
- 概要:データ数が少ない時、当たりくじからの学習は元々のDNNを上回ることの実証
- 研究機関:Google
- 新規性:データ数が少ない場合で実証した。
- キモ:IMPで当たりくじを見つけ、データ数が少ない場合とInbalanceな場合で実験した
Most Activation Functions Can Win the Lottery Without Excessive Depth
- 概要:強い宝くじ仮説の証明における深さの改良
- 新規性:強い宝くじ仮説の証明時に当たりくじを得る前のDNNの深さが、従来の$2N$から$N-1$で良くなり、幅の係数も対数で済むことを示した。
ReLU付きのDNNでも適用できるようにした。 - キモ:証明した。
- 評価:ResNet18, TinyImageNetで実験した。
おまけ
Axiomatic Attribution for Deep Networks
- 概要:Integrated Gradients. DNNの入出力関係を知る指標
- 学会:ICML2017
- 新規性:SensitivityとImprementation Invariance (同じDNNなら同じ値を取る性質) を満たすべき性質とし、これを満たす指標を提案
- キモ:定義(1)式
- 評価:Gradientと比較 (下図は論文のFig. 2より引用)
-
画像や数式は論文から引用しています。 ↩