0

More than 1 year has passed since last update.

ICLR2023の枝刈り論文 (3)

Posted at 2023-08-13

概要

この記事では、ICLR2023の枝刈り論文を紹介します。¹
その1 その2

Learning to Jointly Share and Prune Weights for Grounding Based Vision and Language Models

概要：Vision Language Modelの枝刈り。
研究機関：Samsung
新規性：VisionとLanguageが重み共有されるように刈りながら学習する。
キモ：TransformerのBackboneの重み共有をする。さらに互いのBackboneの枝刈りもする。
評価：Vision Languageタスクで評価した。

Over-parameterized Model Optimization with Polyak-Lojasiewicz Condition

概要：枝刈りのための正規化
新規性：Polyak-Lojasiewicz(PL)定数に正則化をかけることで刈りやすくなる
キモ：目的関数にリプシッツ定数とLT定数の比の正則化項を追加して最適化する。
評価：BERT, VGG-16で実験した。

A General Framework For Proving The Equivariant Strong Lottery Ticket Hypothesis

概要：強い当たりくじ仮説の一般化
新規性：強い当たりくじ仮説を、群$G$の動きを保存する関数であるDNNへ拡張した。
キモ：主定理 Theorem 1
評価：いくつかの具体的な関数で確認した。

How I Learned to Stop Worrying and Love Retraining

概要：枝刈りと学習を繰り返すときのLRの決め方
新規性：学習バジェット(EPOCH数)一定ではLRは線形に変化させるのが良いと主張した。
キモ：Warmup後線形にLRを落とすLLRで、さらに初期LRを割合dで割り引くALLRが一番良い。
評価：ResNet, CIFARで実験した。

OTOv2: Automatic, Generic, User-Friendly

概要：OTOv2. 一般のDNNで小さいモデルを作りながらone-shotで高精度・高速なDNNが得られる。
研究機関：Microsoft
新規性：OTOv1のZIGを求めるのをOTOv2で自動化した。
キモ：隠れ層で量子化してロス計算して最適化する。
評価：VGG16, ResNet50で実験した。

画像や数式は論文から引用しています。 ↩

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0