概要
Learning Pruning-Friendly Networks via Frank-Wolfe: One-Shot, Any-Sparsity, And No Retraining
(ICLR2022 Spotlight)
概要:One-shot pruning (反復や再学習が不要な枝刈り)の手法
新規性:One-shot pruningでSOTA
キモ:DNNの学習をpruning-awareにするために、ロスの最小化の探索空間$C$をK-sparse超多面体に制約を掛ける。
この最適化問題を、SFW (Stochastic Frank-Wolfe) で解く。
評価:VGG, CIFAR-10で実験して比較した。
On Lottery Tickets and Minimal Task Representations in Deep Reinforcement Learning
(ICLR2022 Spotlight)
概要:強化学習における宝くじ理論
新規性:強化学習における宝くじ理論のメカニズムを詳しく調べた。
キモ:入力層の枝刈りの寄与を調べ、タスク依存な刈り方をしていることが分かった。
マスク(刈り方)のみ学習した場合と、マスクと重みを学習した場合と比較して近いことから、マスクの寄与が大きいことが分かった。
Off-policyでもon-policyでも枝刈りに効果があることが分かった。
評価:様々なATARIタスクで実験した。
SOSP: Efficiently Capturing Global Correlations by Second-Order Structured Pruning
(ICLR2022 Spotlight)
概要:SOSP. DNNのグローバルな情報を効率よく取れる2次枝刈り
新規性:Structured pruningで、2次の効率的な方法を提案した。
キモ:$M$がある時とない時のロスの差を小さくする。
SOSP-Iでは、HessianをGauss-Newton近似で、SOSP-Hでは、Hessian・ベクトル積を逆誤差伝播法で求める。
評価:VGG, ResNet, DenseNetでEigenDamage(2019)等と比較した。
Prospect Pruning: Finding Trainable Weights at Initialization using Meta-Gradients
(ICLR2022 Poster)
概要:ProsPr. 初期化時の枝刈り(pruning at initialization). Single-shotもできる。
新規性:従来の初期化時の枝刈りより精度が良い。
キモ:
SNIPで、少し勾配を計算してからSNIP同様に、ロスに対するマスクの勾配からマスクの寄与度$s_j$を計算して刈る。SNIPとの差分は、Algorithm 1の3~8行目が存在していることである。
評価:VGG-19やResNetで、SNIP等と比較した。
-
画像や数式は論文から引用しています。 ↩