Attention Residuals
https://www.alphaxiv.org/overview/2603.15031 を読んだメモです。
書誌情報
研究機関:Kimi Team
概要
- LLMは、PreNormの正規化によって、PreNorm希釈(Prenorm dilution)が発生する。つまり、Transformerレイヤが後段に行くほど、前段の情報が薄まって忘れられてしまう
- これを解決するために、前段の情報も活用するAttnResを提案する
- 図1や(1)式のように、それまでの全ての前の層のデータの出力を定数倍してその層の出力に足しこむ
- CNNにおけるDenseNetに似ている
- この方法では計算量が増えるので、Transformerレイヤをブロック分割して、ブロック間でのみAttnResを適用する
Mixture-of-Depths Attention
https://www.alphaxiv.org/overview/2603.15619 を読んだメモです。
書誌情報
https://arxiv.org/abs/2603.15619
研究機関:ByteDance
概要
- Attention Residuals同様、LLMには後段に行くほど前段の情報が薄まる課題がある
- この課題を解決するためにMoDA (Mixture-of-Depths Attention) を提案する
- Figure 3の(d)のように、前段のTransformerレイヤのKVを覚えておいて、後段に伝えるときに追加していく
- 今のTransformerレイヤのQは、それより前の全てのKVともAttentionすることになる
- 論文ではハードウェアに適した実装も記載
感想
- Attention ResidualsはKimi Teamからの論文。今後のKimi TeamのLLMのアーキテクチャにも取り入れられる可能性がある