概要
この記事では、ICML2024の量子化・枝刈り論文を紹介します。1
Outlier-aware Slicing for Post-Training Quantization in Vision Transformer
-
概要:PTQの改善
-
新規性:"Reconstraction granularity"の導入
ERQ: Error Reduction for Post-Training Quantization of Vision Transformers
-
概要:PTQの改良
LayerMerge: Neural Network Depth Compression through Layer Pruning and Merging
-
概要:DNNのレイヤをマージして軽量化する
-
新規性:Fig.2 のようなマージを最適に求める
Pruner-Zero: Evolving Symbolic Pruning Metric From Scratch for Large Language Models
-
概要:枝刈りの指標
-
新規性:演算の組み合わせの最適化で指標を探索する点
-
キモ:Table 10を組み合わせた指標から、進化的アルゴで最適な組み合わせを探索する。スコアはLlama-2から実際に刈って確かめた

-
画像や数式は論文から引用しています。 ↩


