概要
この記事では、ICLR2023の枝刈り論文を紹介します。1
その1
TVSPrune - Pruning Non-discriminative filters via Total Variation separability of intermediate representations without fine tuning
- 概要:TVSPrune. Structured枝刈りで画像やロス修正不要なもの
- 新規性:Discriminative filter hypothesisを提案。良く学習されたネットワークは分類器の分類能力に影響を与えずに刈れる。
- キモ:
- フィルタの分離能力を、クラス間の出力のTV距離の観点で定義する。
- 刈るレイヤを決める尺度LDIFFScoreを定義する。
- 評価:VGG, ResNetなどで実験した。
Pruning Deep Neural Networks from a Sparsity Perspective
- 概要:PQI, SAP. 枝刈りの指標
- 新規性:疎なパラメータが見たすべき6条件を見たした、圧縮ができる可能性の指標PQIと、それを用いて枝刈り率を調整しながらう刈ることで枝刈り後の精度を改善したSAPを提案した。
- キモ:PQIの定義とPQIが大きいほど疎であること。
- 評価:ResNet, FasionMNIST, CIFARで実験した。
Holistic Adversarially Robust Pruning
- 概要:Pre-trained向け枝刈り
- 新規性:従来の枝刈りの精度劣化や敵対例へのロバスト性が落ちる課題を解決する。
- キモ:敵対例ができる式を間に入れてmin/maxしたロスを最適化する。Global compressionなどの工夫。
- 評価:VGGやResNet
A Unified Framework for Soft Threshold Pruning
- 概要:Soft threshold pruning (枝刈りと学習の繰り返しする方法)
- 新規性:Soft threshold pruningはISTA (Iterateve Shrinkage-Thresholding Algorithm) のL1正則化項として特徴づけられることを示した。
- キモ:最適な枝刈り閾値スケジューラLATSを提案した。
- 評価:ResNetやMobileNetV1
HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained Transformers
- 概要:HomoDistil. 枝刈りの繰り返しでTransformerの学習済みモデルからタスクによらないモデルの蒸留をする方法。
- 研究機関:Amazon
- 新規性:目標に至るまで蒸留学習、枝刈りを繰り返すことで通常の知識を保持したまま小さなモデルを作る。
- キモ:HomoDistilは従来の蒸留と異なり、軌跡が蒸留の有効な空間の中にいることを保証する。
- 評価:BERT等に適用した。
-
画像や数式は論文から引用しています。 ↩