0

Attention Residuals, Mixture-of-Depths Attention

0

Posted at 2026-03-18

Attention Residuals

https://www.alphaxiv.org/overview/2603.15031 を読んだメモです。

書誌情報

研究機関：Kimi Team

概要

LLMは、PreNormの正規化によって、PreNorm希釈(Prenorm dilution)が発生する。つまり、Transformerレイヤが後段に行くほど、前段の情報が薄まって忘れられてしまう
これを解決するために、前段の情報も活用するAttnResを提案する
図1や(1)式のように、それまでの全ての前の層のデータの出力を定数倍してその層の出力に足しこむ
- CNNにおけるDenseNetに似ている
この方法では計算量が増えるので、Transformerレイヤをブロック分割して、ブロック間でのみAttnResを適用する

Mixture-of-Depths Attention

https://www.alphaxiv.org/overview/2603.15619 を読んだメモです。

書誌情報

https://arxiv.org/abs/2603.15619
研究機関：ByteDance

概要

Attention Residuals同様、LLMには後段に行くほど前段の情報が薄まる課題がある
この課題を解決するためにMoDA (Mixture-of-Depths Attention) を提案する
Figure 3の(d)のように、前段のTransformerレイヤのKVを覚えておいて、後段に伝えるときに追加していく
- 今のTransformerレイヤのQは、それより前の全てのKVともAttentionすることになる
論文ではハードウェアに適した実装も記載

感想

Attention ResidualsはKimi Teamからの論文。今後のKimi TeamのLLMのアーキテクチャにも取り入れられる可能性がある

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0