0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Attention Residuals, Mixture-of-Depths Attention

0
Posted at

Attention Residuals

https://www.alphaxiv.org/overview/2603.15031 を読んだメモです。

書誌情報

研究機関:Kimi Team

概要

  • LLMは、PreNormの正規化によって、PreNorm希釈(Prenorm dilution)が発生する。つまり、Transformerレイヤが後段に行くほど、前段の情報が薄まって忘れられてしまう
  • これを解決するために、前段の情報も活用するAttnResを提案する
  • 図1や(1)式のように、それまでの全ての前の層のデータの出力を定数倍してその層の出力に足しこむ
    • CNNにおけるDenseNetに似ている
  • この方法では計算量が増えるので、Transformerレイヤをブロック分割して、ブロック間でのみAttnResを適用する

Mixture-of-Depths Attention

https://www.alphaxiv.org/overview/2603.15619 を読んだメモです。

書誌情報

https://arxiv.org/abs/2603.15619
研究機関:ByteDance

概要

  • Attention Residuals同様、LLMには後段に行くほど前段の情報が薄まる課題がある
  • この課題を解決するためにMoDA (Mixture-of-Depths Attention) を提案する
  • Figure 3の(d)のように、前段のTransformerレイヤのKVを覚えておいて、後段に伝えるときに追加していく
    • 今のTransformerレイヤのQは、それより前の全てのKVともAttentionすることになる
  • 論文ではハードウェアに適した実装も記載

感想

  • Attention ResidualsはKimi Teamからの論文。今後のKimi TeamのLLMのアーキテクチャにも取り入れられる可能性がある
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?