概要
この記事では、CVPR2025の量子化論文を紹介します。
Pioneering 4-Bit FP Quantization for Diffusion Models: Mixup-Sign Quantization and Timestep-Aware Fine-Tuning
- 概要:拡散モデルのPTQによる4bit量子化
- キモ:まずFP量子化で安定にPTQする方法 MSFPフレームワーク(TALoRAとDFA)を提案
Q-DiT: Accurate Post-Training Quantization for Diffusion Transformers
- 概要:Diffusion Transformer (DiT)のPTQによる量子化
- キモ:量子化粒度の自動割り当てと、サンプル毎のActivationの動的量子化
Quantization without Tears
- 概要:PTQの性能改善
- キモ:量子化ブロックに、Fig. 1のように補償のためのLinearを追加。Linearの重みはキャリブレーションデータを入れた時の出力$Y$, $Y^Z$を使って(6)式のように陽に書ける
QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge
- 概要:ASIC向け単眼深度推定のW4A4量子化
- キモ:
- Per-channel量子化
- 外れ値を除く Activation Polishing
- 重みを簡単な計算(10)式で補償するActivation Loss Compentation
- Weight construction. 重みの最適化問題を近似を入れて解く
PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution
- 概要:ワンステップ拡散超解像手法にPTQを適用
- キモ:ワンステップ拡散超解像手法からCLIPEncoderを除去してU-NetとVAEのみにする。LBQはClipping値を学習する。LETはLinear, Conv, Attention($QK^T$)に学習パラメータ付きのスケーリングを適用。DQCはLBQとLETの学習を分ける
Automatic Joint Structured Pruning and Quantization for Efficient Neural Network Training and Compression
- 概要:Structured pruningとQATを同時に行うGETAを提案
- キモ:
- レイヤ間の依存関係グラフを自動生成することで枝刈り依存性を自動生成する
- 枝刈りとQATを同時にするオプティマイザを提案