概要
この記事では、NeurIPS2022の枝刈り論文を紹介します。1
その1 その2
Pruning Neural Networks via Coresets and Convex Geometry: Towards No Assumptions
- 概要:Coresetsを使った枝刈りの改良
- 新規性:Coresets(任意の実行入力に対して理論的に誤差の上界が抑えられる)を使った枝刈りで、制約を緩めて実用的にした。
- キモ:元の点からなる空間からLouwer-John elipsoid (全ての点を含む最大の楕円体)を小さくして、カラテオドリの定理で得られる凸包を使って小さくする。
Algorithm 1, 2で、元よりもロスが小さくなる点を選び、刈る。 - 評価:Filter pruningでResNet50, Pascal VOCなどで評価した
Lottery Tickets on a Data Diet: Finding Initializations with Sparse Trainable Networks
- 概要:IMPの良い初期値設定
- 研究機関:Meta, Google
- 新規性:
(1) IMPのpre-trainingには少数データで良いことを実験的に示した。
(2) (1)は学習回数がそんなに多くなくて良いことを示した。
(3) 少数データはEL2N Score (サンプルの難しさを測る指標) の小さい、easyなデータが良いことを示した。
- キモ:実験した。
- 評価:実験した。
Prune and distill: similar reformatting of image information along rat visual cortex and deep neural networks
- 概要:ラットの視覚野とDNNとの比較
- 新規性:視覚野とDNNを、DNNの序盤の枝刈りと蒸留で理解する。
- キモ:
A Fast Post-Training Pruning Framework for Transformers
- 概要:Transformer向け再学習不要structured pruning
- 研究機関:Samsung
- 新規性:Fisher行列を使って最適なPTQをする方法
- キモ:
- フィッシャー情報量(ロスのHessian)を最小化する。
- マスク間の相関をとるために、Fisher行列をMHAやFFN等にブロック対角化する。
- 評価:BERT, GLUE, SQuADで精度1%劣化で1.56倍高速
Pruning has a disparate impact on model accuracy
- 概要:枝刈りが公平性に与える影響
- 新規性:枝刈りと公平性の関係性を議論した。
- キモ:枝刈りで、精度が高いクラスはより高く、精度が低いクラスはより低くなり、またその主要因は勾配の大きさやHessianの大きさのばらつきであると主張した。
勾配が大きかったり、Hessianが大きかったりすると、ロスが大きく変わり(stepが大きくなって)精度が下がりがちになるから。 - 評価:ResNetやVGGで評価した。
-
画像や数式は論文から引用しています。 ↩