概要
この記事では、ICLR2023の枝刈り論文を紹介します。1
その1 その2
Learning to Jointly Share and Prune Weights for Grounding Based Vision and Language Models
- 概要:Vision Language Modelの枝刈り。
- 研究機関:Samsung
- 新規性:VisionとLanguageが重み共有されるように刈りながら学習する。
- キモ:TransformerのBackboneの重み共有をする。さらに互いのBackboneの枝刈りもする。
- 評価:Vision Languageタスクで評価した。
Over-parameterized Model Optimization with Polyak-Lojasiewicz Condition
- 概要:枝刈りのための正規化
- 新規性:Polyak-Lojasiewicz(PL)定数に正則化をかけることで刈りやすくなる
- キモ:目的関数にリプシッツ定数とLT定数の比の正則化項を追加して最適化する。
- 評価:BERT, VGG-16で実験した。
A General Framework For Proving The Equivariant Strong Lottery Ticket Hypothesis
- 概要:強い当たりくじ仮説の一般化
- 新規性:強い当たりくじ仮説を、群$G$の動きを保存する関数であるDNNへ拡張した。
- キモ:主定理 Theorem 1
- 評価:いくつかの具体的な関数で確認した。
How I Learned to Stop Worrying and Love Retraining
- 概要:枝刈りと学習を繰り返すときのLRの決め方
- 新規性:学習バジェット(EPOCH数)一定ではLRは線形に変化させるのが良いと主張した。
- キモ:Warmup後線形にLRを落とすLLRで、さらに初期LRを割合dで割り引くALLRが一番良い。
- 評価:ResNet, CIFARで実験した。
OTOv2: Automatic, Generic, User-Friendly
- 概要:OTOv2. 一般のDNNで小さいモデルを作りながらone-shotで高精度・高速なDNNが得られる。
- 研究機関:Microsoft
- 新規性:OTOv1のZIGを求めるのをOTOv2で自動化した。
- キモ:隠れ層で量子化してロス計算して最適化する。
- 評価:VGG16, ResNet50で実験した。
-
画像や数式は論文から引用しています。 ↩