3
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

NeurIPS2022の量子化論文 (4)

Last updated at Posted at 2023-04-09

概要

この記事では、NeurIPS2022の量子化論文を紹介します。1
(その1 その2 その3)

BiT: Robustly Binarized Multi-distilled Transformer

  • 概要:Transformerの2値化
  • 研究機関:Meta
  • 新規性:Transformerを実用的に2値化したものは初(画像では以前にあった)
  • キモ:蒸留とSTE
  • 評価:BERT, GLUEで評価した

ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers

  • 概要:大規模NLPモデル向けPTQ
  • 研究機関:Microsoft
  • 新規性:大規模NLPモデルをFP16からINT4/INT8に精度維持で高速化した
  • キモ:(1)Ampare向け Group-wise量子化 (2)レイヤ毎に蒸留 (3)CUTLASSで行列積
  • 評価:BERT等で評価

UDC: Unified DNAS for Compressible TinyML Models for Neural Processing Units

  • 概要:UDC. Unstructuredで圧縮可能なTinyMLモデルを探すNAS
  • 研究機関:Meta, NVIDIA, Tenstorrent, Arm, Qualcomm
  • 新規性:従来より速く精度高い。ネットワークのアーキテクチャ、ビット幅、量子化、Sparsityを最適化できる。
  • キモ:量子化、Sparsityの効果をモデルサイズで押さえられること。これでロス関数を定義して最適化する
    image.png
  • 評価:NPUを使用したTinyMLでSOTA
  1. 画像や数式は論文から引用しています。

3
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?