概要
傾向
- PTQが増えている。(学習時のデータが不要な方法)
- 混合量子化の話題は少なくなっている。
- DETRやDiffusionモデルといった最近話題のモデル特有の課題を解決する研究も一定数ある。
Hard Sample Matters a Lot in Zero-Shot Quantization
- 概要:HAST. Zero-shot(学習時のデータ無し)量子化で合成データを使うもの。
- 新規性:合成データを入れても精度が落ちないようにした。
- キモ:GHMで難しいと判定された画像について、量子化前後のモデルの出力の差が最小になるようにする。
- 評価:3, 4bit, MobileNet, ResNetで実験した。
NIPQ: Noise proxy-based Integrated Pseudo-Quantization
One-Shot Model for Mixed-Precision Quantization
- 概要:混合量子化時最適なネットワークを探索するOne-shot NAS. (複数の種類の混合量子化を準備しておきたい)
- 研究機関:Huawei
- 新規性:パレート最適なネットワークをO(1)で見つける。
- キモ:元々のパラメータから中間変数$\pi$の空間へ飛ばして戻すことでパラメータを生成する。
- 評価:MobileNet, ResNet
Q-DETR: An Efficient Low-Bit Quantized Detection Transformer
- 概要:DETRの低ビット量子化
- 研究機関:Tencent
- 新規性:ボトルネックはQueryの情報欠落と特定し、対策した。
- キモ:問題をDRD(分布を修正する蒸留)と考え、bi-level optimizationで解く。
- 評価:Pascal VOCで、DETRとQ-DETRを比較。
Adaptive Data-Free Quantization
- 概要:AdaDFQ. データ無し量子化。
- 新規性:データ生成するFloatのネットワークと、量子化ネットワークの類似性はどのようにするのが良いか考察した。
- キモ:Floatのネットワークと量子化のネットワークのマージン最適化。
Post-training Quantization on Diffusion Models
- 概要:DiffusionモデルのPTQ
- 研究機関:Tencent
- 新規性:特にエッジ適用では遅い問題をPTQで解決。
- キモ:Single-time stepのDiffusionモデルを、mult-time stepで扱えるようにした。
PD-Quant: Post-Training Quantization Based on Prediction Difference Metric
- 概要:PD-Quant. PTQの改良。
- 新規性:PTQ(モデルから量子化パラメータを学習する方法)による精度劣化の改善。
- キモ:量子化前後の中間も含めた予測結果の差分をロスとして量子化パラメータを学習する。
Distribution Correction (DC) でActivationの分布とBatch normalizationの平均・分散を合わせる。 - 評価:ResNet, MobileNet, RegNet
Solving Oscillation Problem in Post-Training Quantization Through a Theoretical Perspective
- 概要:PTQの改善
- 研究機関:ByteDance
- 新規性:PTQにおけるロスの振動(Fig. 1)を解析し、抑える方法を提案した。
- キモ:ModCapを(3)式で定義する。module間の差が振動になる。
Bit-shrinking: Limiting Instantaneous Sharpness for Improving Post-training Quantization
GENIE: Show Me the Data for Quantization
- 概要:Genie. Zero-shot learning.
- 研究機関:Samsung
- 新規性:従来のZero-shot learningはQATベースだが、これはPTQベース
- キモ:量子化に向くデータを蒸留で生成する。
Boost Vision Transformer with GPU-Friendly Sparsity and Quantization
- 概要:GPUSQ-ViT
- 研究機関:NVIDIA
- 新規性:2:4 sparsityと量子化を初めて両立した。
- キモ:2:4 sparsityは蒸留を使いつつ。pruning. QATは(2)式のように重み付けした。
-
画像や数式は論文から引用しています。 ↩