概要
Gradient-Free Structured Pruning with Unlabeled Data
- 概要:LLMのラベル無しデータによる枝刈り
- 研究機関:Google
- 新規性:ラベル無しデータで枝刈りした
- キモ:R2は、代表点となりうるConvex hullから最適点を探索する。
D2は、データドリブンの統計量でランキングする。
KCMは、R2とD2のどちらでフィルタするか決める。 - 評価:BERT
Fast as CHITA: Neural Network Pruning with Combinatorial Optimization
- 概要:学習による枝刈り
- 研究機関:Google
- 新規性:OBS(ロスのTaylor展開の2次を刈る)を拡張し、メモリに適した表現へ最適化する。
- キモ:組合せ最適化する。
A Three-regime Model of Network Pruning
- 概要:枝刈り後の精度をモデル化する
- 新規性:Load-likeとtemperature-likeのパラメータを使い、最初に刈りやすいモデルを学習する方法を実験から3相モデルで整理した。(Figure 1b)
UPSCALE: Unconstrained Channel Pruning
Why Random Pruning Is All We Need to Start Sparse
- 概要:強い宝くじ仮説の証明
- 新規性:Denseなネットワークは1/log(1/sparsity)の幅からのランダム枝刈りで近似できることを示した。
Instant Soup: Cheap Pruning Ensembles in A Single Pass Can Draw Lottery Tickets from Large Models
- 概要:宝くじ仮説で当たりくじを見つける方法
- 新規性:ISP. EPOCH数の少ない弱い識別器をアンサンブルすることで、IMPより性能が良くなる
Pruning via Sparsity-indexed ODE: a Continuous Sparsity Viewpoint
- 概要:PSO. 枝刈りフレームワークの提案。
- 新規性:Sperse trainingの枝刈り方法で、従来のIMPやLTHより高速な方法を提案する。
- キモ:微分方程式(9)の解の経路を辿ると最適なマスクが得られる。
-
画像や数式は論文から引用しています。 ↩