概要
Linear Transformerを理解するために参考にした記事とメモです。
論文
Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention
記事
- 概要
- https://www.alphaxiv.org/overview/2006.16236
- Transformerはシーケンス長$N$に対して$O(N^2)$で計算量が増えるのが課題
- 計算量とメモリを$O(N)$にする方法を提案する
- $S_i$と$Z_i$についての累積和の式から、TransformerはRNNとみなすことができる
- 累積和の式のため、各ステップの計算は$O(1)$で済むので、全体計算量は$O(N)$になる
- MNISTやCIFAR-10での実験で推論が速くなったことを確認。学習も速くなった。精度は下がる
- RNNの式
- https://zenn.dev/student_blog/articles/3296c3d71f90fa
- 内部状態$h_t$は、1つ前の内部状態$h_{t-1}$の関数で表せる
- …と考えると、$S_i$と$Z_i$の式から、TransformerはRNNとみなせる
- 数式と図
- https://zenn.dev/headwaters/articles/84c6736cd78653
- 論文におけるAttentionの出力(3)式から(5)式を追うのに参考になる
- よくわからない関数simを$\phi$におきかえて計算させる、と考える
- Attentionのアーキテクチャ図からLinear Transformerのアーキテクチャ図のように変わる。Linear Transformerは、Qの積よりKVの積が先になる