※ このページは「LONGLORA: EFFICIENT FINE-TUNING OF LONGCONTEXT LARGE LANGUAGE MODELS」の要約になります。
このページでわかること
- LongLoRAは、事前学習された大規模言語モデル(LLM)のコンテキストサイズを効率的に拡張する手法
- Shifted Sparse Attention(S2-Attn)と改良されたLoRAを組み合わせることで、メモリと計算コストを削減しつつ高い性能を維持
- この手法は、標準的な自己注意メカニズムを推論時に保持し、既存のインフラとの互換性を確保しています。LongLoRAはLlama2モデルに対して強力な実証結果を示し、最大100kのコンテキストサイズまで拡張可能
対象読者
- 特に大規模言語モデル(LLM)の研究や開発に携わる研究者やエンジニア
- 効率的なモデルの微調整やコンテキスト拡張に関心がある人
LLM のコンテキストサイズ拡張の問題点
-
高い計算コスト:
- LLMを長いコンテキストサイズで訓練するには、計算コストが非常に高く、GPUリソースが大量に必要です。例えば、コンテキストサイズを8192に拡張するだけでも、2048の場合の16倍の計算コストが必要になる
-
訓練時間の増加:
- 長いコンテキストサイズでの訓練は、訓練時間が大幅に増加するため、実際の訓練が非常に非効率です。従来の手法では、モデルの微調整に多くの時間がかかる
-
リソースの限界:
- 大規模な計算リソース(例えば、数十から数百のGPUやTPU)が必要であり、これらは一般の研究者や小規模な研究グループには手が届きにくい
-
性能の維持:
- コンテキストサイズを拡張する際に、性能(例えば、パープレキシティ)の低下を防ぎつつ、効率的な訓練方法を見つけることが難しいという問題がある
LongLoRA
LongLoRA とは?
LongLoRAは、事前学習されたLLMのコンテキストサイズを効率的に拡張するための微調整手法です。この手法は、計算コストを抑えながら長いコンテキストサイズを可能にするため、Shifted Sparse Attention(S2-Attn)と改良されたLow-Rank Adaptation(LoRA)を組み合わせています。
LongLoRA のメリット
- 効率的なコンテキスト拡張:LongLoRAは、従来の方法に比べて少ない計算リソースで長いコンテキストサイズを実現
- 計算コストの削減:S2-Attnを使用することで、計算コストを大幅に削減しつつ、訓練時間を短縮する
- 性能の維持:従来のフルファインチューニングに匹敵する性能を保ちながら、リソース効率を向上させる
- 互換性:既存の最適化技術やインフラと互換性があり、既存のモデルや技術をそのまま使用できる
LongLoRA の手順
-
Shifted Sparse Attention(S2-Attn)の導入:
- トークンをグループに分け、各グループ内でのみ注意を計算することで計算コストを削減
- 各グループの半分のトークンをシフトし、隣接するグループ間で情報の流れを確保
-
改良されたLoRA(LoRA+)の使用:
- 通常のLoRAに加え、埋め込み層と正規化層を学習可能にすることで、長いコンテキストの拡張をサポート
-
モデルの微調整:
- LongLoRAを使用して、事前学習されたLLMを特定のコンテキストサイズに拡張する
- S2-Attnを使用して訓練中の計算コストを削減しつつ、推論時には標準の自己注意メカニズムを保持
LongLoRA の性能
-
コンテキストサイズの拡張:
- 例として、Llama2 7Bモデルを4kコンテキストから100kコンテキストまで拡張
-
計算リソースの効率化:
- 従来のチューニングと比較し、リソース効率を大幅に向上
-
性能評価:
- LongLoRAは従来のフルファインチューニングに匹敵するパープレキシティ(例:Llama2 7Bで8192トークンの場合、パープレキシティが2.66から2.52まで改善)
まとめ
以上がLongLoRAの要約でした。低コストでコンテキストサイズを増やしたいシーンは結構あると思うので、知っておくとよさそうですね。
おわり。