DELTALLM: Transformerモデルの圧縮を革新する低ランクデルタ手法

Posted at 2025-02-01

DELTALLM: Transformerモデルの新たな圧縮手法

今回は、最新の研究成果である "DELTALLM: Compress LLMs with Low-Rank Deltas between Shared Weights" という論文をご紹介します。本研究では、大規模言語モデル（LLM）のメモリフットプリントを削減するための新しい後処理型圧縮技術を提案しています。従来の圧縮手法と異なり、本手法では Transformerブロック間の重みを共有しつつ、低ランクな差分行列（デルタ）を追加する ことで、性能を大幅に劣化させることなくモデルのパラメータを削減する点が特徴です。

論文情報

タイトル: DELTALLM: Compress LLMs with Low-Rank Deltas between Shared Weights
リンク: arXiv:2501.18596v1
発表日: 2025年1月30日
著者: Liana Mikaelyan, Ayyoob Imani, Mathew Salvaris, Parth Pathak, Mohsen Fayyaz
DOI: 未公開（arXiv論文）

背景と目的

Transformerの成長と圧縮の必要性

近年、大規模言語モデル（LLM）は指数関数的に増加しており、その性能はモデルサイズに依存する傾向があります（Kaplan et al., 2020）。特に、GPT-3（175B）、Llama-3（70B）などの巨大なモデルは、数百GBのメモリを消費し、推論コストも高騰しています。

一方で、エッジデバイスや低リソース環境での運用には、モデルの圧縮が不可欠です。従来の圧縮手法には以下のようなものがあります：

蒸留（Knowledge Distillation）: 大モデルの知識を小モデルに転移（Hinton et al., 2015）。
剪定（Pruning）: 重要でない重みを削除（Han et al., 2015）。
量子化（Quantization）: 重みを低精度（例: 8-bit, 4-bit）で表現（Frantar et al., 2022）。
重み共有（Weight Sharing）: レイヤー間でパラメータを共有（Dehghani et al., 2019）。

しかし、これらの手法には性能劣化や計算コストの増加といった課題がありました。DELTALLMは、Transformerブロック間の冗長性を利用し、低ランクなデルタ行列を用いることで高い圧縮率を実現しつつ、精度を維持する ことを目的としています。

研究の焦点

DELTALLMの技術的概要

DELTALLMは、以下の3つの主要な要素で構成されています。

1. Transformerブロック間の重み共有

連続するTransformer層間で同じ重みを再利用する。
これにより、パラメータ数を削減。

2. 低ランクなデルタ行列の導入

共有された重みの小さな違いを補正するため、低ランクなデルタ行列を導入。
$$ W_{l+i} = W_l + \delta_{l, l+i} $$
ここで $$ \delta_{l, l+i} $$ は $$ W_{l+i} - W_l $$ の低ランク近似。
特異値分解（SVD）を用いて低ランク構造を抽出し、最適な近似を実現。

3. 進行的モジュール置換（Progressive Module Replacement, PMR）

圧縮中もモデルのパフォーマンスを維持するため、徐々にオリジナルの重みを圧縮版に置換。
段階的な置換により、学習の安定性を確保。

実験の概要と結果

実験設定

ベースモデル: Llama-3.2B, Phi-3.5B
圧縮モデル: DELTALLAMA, DELTAPHI
学習データ: Alpaca, Ultrachat
評価指標: MMLU, Winogrande, HellaSwag, ARC-Challenge
圧縮率: 12%～25%
推論速度比較: 圧縮後の速度改善

結果

モデル	パラメータ数	MMLU	Winogrande	ARC-Challenge	HellaSwag	推論速度向上
Phi 3.5B	3.8B	0.36	0.75	0.61	0.77	1.0x
DELTAPHI 3.35B	3.35B	0.32	0.70	0.51	0.70	1.3x
DELTAPHI 2.9B	2.9B	0.31	0.71	0.44	0.61	1.5x

DELTAPHI 3.35Bは、Phi 3.5Bより12%圧縮しながら、推論速度が1.3倍向上しました。

まとめと今後の課題

DELTALLMの優位性

高い圧縮率と精度維持
既存の圧縮手法（JointDrop, SliceGPT, ShortGPT, LaCo）を上回る性能
推論速度の向上に貢献

今後の展望

さらなる低ランク分解技術の活用（Tucker分解、CP分解など）
適用可能なモデル範囲の拡大（T5, BERT, GPT-4）
量子化技術との組み合わせによるさらなる圧縮

DELTALLMは、低リソース環境でのLLM運用に適した圧縮技術 であり、今後の発展が期待されます。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up