DELTALLM: Transformerモデルの新たな圧縮手法
今回は、最新の研究成果である "DELTALLM: Compress LLMs with Low-Rank Deltas between Shared Weights" という論文をご紹介します。本研究では、大規模言語モデル(LLM)のメモリフットプリントを削減するための新しい後処理型圧縮技術を提案しています。従来の圧縮手法と異なり、本手法では Transformerブロック間の重みを共有しつつ、低ランクな差分行列(デルタ)を追加する ことで、性能を大幅に劣化させることなくモデルのパラメータを削減する点が特徴です。
論文情報
- タイトル: DELTALLM: Compress LLMs with Low-Rank Deltas between Shared Weights
- リンク: arXiv:2501.18596v1
- 発表日: 2025年1月30日
- 著者: Liana Mikaelyan, Ayyoob Imani, Mathew Salvaris, Parth Pathak, Mohsen Fayyaz
- DOI: 未公開(arXiv論文)
背景と目的
Transformerの成長と圧縮の必要性
近年、大規模言語モデル(LLM)は指数関数的に増加しており、その性能はモデルサイズに依存する傾向があります(Kaplan et al., 2020)。特に、GPT-3(175B)、Llama-3(70B)などの巨大なモデルは、数百GBのメモリを消費し、推論コストも高騰しています。
一方で、エッジデバイスや低リソース環境での運用には、モデルの圧縮が不可欠です。従来の圧縮手法には以下のようなものがあります:
- 蒸留(Knowledge Distillation): 大モデルの知識を小モデルに転移(Hinton et al., 2015)。
- 剪定(Pruning): 重要でない重みを削除(Han et al., 2015)。
- 量子化(Quantization): 重みを低精度(例: 8-bit, 4-bit)で表現(Frantar et al., 2022)。
- 重み共有(Weight Sharing): レイヤー間でパラメータを共有(Dehghani et al., 2019)。
しかし、これらの手法には性能劣化や計算コストの増加といった課題がありました。DELTALLMは、Transformerブロック間の冗長性を利用し、低ランクなデルタ行列を用いることで高い圧縮率を実現しつつ、精度を維持する ことを目的としています。
研究の焦点
DELTALLMの技術的概要
DELTALLMは、以下の3つの主要な要素で構成されています。
1. Transformerブロック間の重み共有
- 連続するTransformer層間で同じ重みを再利用する。
- これにより、パラメータ数を削減。
2. 低ランクなデルタ行列の導入
- 共有された重みの小さな違いを補正するため、低ランクなデルタ行列を導入。
- $$ W_{l+i} = W_l + \delta_{l, l+i} $$
- ここで $$ \delta_{l, l+i} $$ は $$ W_{l+i} - W_l $$ の低ランク近似。
- 特異値分解(SVD)を用いて低ランク構造を抽出し、最適な近似を実現。
3. 進行的モジュール置換(Progressive Module Replacement, PMR)
- 圧縮中もモデルのパフォーマンスを維持するため、徐々にオリジナルの重みを圧縮版に置換。
- 段階的な置換により、学習の安定性を確保。
実験の概要と結果
実験設定
- ベースモデル: Llama-3.2B, Phi-3.5B
- 圧縮モデル: DELTALLAMA, DELTAPHI
- 学習データ: Alpaca, Ultrachat
- 評価指標: MMLU, Winogrande, HellaSwag, ARC-Challenge
- 圧縮率: 12%~25%
- 推論速度比較: 圧縮後の速度改善
結果
モデル | パラメータ数 | MMLU | Winogrande | ARC-Challenge | HellaSwag | 推論速度向上 |
---|---|---|---|---|---|---|
Phi 3.5B | 3.8B | 0.36 | 0.75 | 0.61 | 0.77 | 1.0x |
DELTAPHI 3.35B | 3.35B | 0.32 | 0.70 | 0.51 | 0.70 | 1.3x |
DELTAPHI 2.9B | 2.9B | 0.31 | 0.71 | 0.44 | 0.61 | 1.5x |
DELTAPHI 3.35Bは、Phi 3.5Bより12%圧縮しながら、推論速度が1.3倍向上しました。
まとめと今後の課題
DELTALLMの優位性
- 高い圧縮率と精度維持
- 既存の圧縮手法(JointDrop, SliceGPT, ShortGPT, LaCo)を上回る性能
- 推論速度の向上に貢献
今後の展望
- さらなる低ランク分解技術の活用(Tucker分解、CP分解など)
- 適用可能なモデル範囲の拡大(T5, BERT, GPT-4)
- 量子化技術との組み合わせによるさらなる圧縮
DELTALLMは、低リソース環境でのLLM運用に適した圧縮技術 であり、今後の発展が期待されます。