More than 1 year has passed since last update.

SAの式に近似して計算効率向上したモデル【RFA】

Posted at 2024-03-03

原論文
RANDOM FEATURE ATTENTION
https://arxiv.org/pdf/2103.02143.pdf

結論

Self-Attentionの式に近似して計算効率向上したモデルを提案した．

概要

自然言語分野のTransformerは，長距離の文字を考慮した高精度をもたらすモデルだが，単語数が多くなると，単語数の2条の計算コストが必要で，長い文章に対して効率的に計算できない．
Transformerの構造で，Self-Attention(SA)の計算が重いので，もっと計算効率のいいSAを提案してみたよ．
確立されたランダム特徴マップを用いて，SAの代わりに代用できる，計算コストの小さい，ランダム特徴アテンション(RFA)を提案を提案する．

モデル構造

下図に示すように，(a)のSAを置き換えるように，(b)のRFAを提案する．
(・)は入力された2つの行列の内積，φ(・)は非線形変換であり，softmaxの代わりに近似させる．

※非線形変換は，入力がxの時，y=f(xW)．
Wが重みで，F()が，活性化関数(ReLUなど)．

RFA

具体的には違うけど，簡単に言うと，SAの式を近似した式に置き換えているだけである．

SA(Q,K,V)=\mathrm{softmax} \left( {Q K} \right) V

RFA(Q,K,V)= \phi (Q) \lbrace \phi (K) V \rbrace

例えば， $\phi(・)$で特徴量のサイズを小さくすると，途中の計算量が小さくなるよね．

計算例

QKVのサイズが$N \times D$の特徴量を持っている時

SA

$Q$($N \times D$)と$K^{T}$($D \times N$)の内積で($N \times N$)=$A$

$A$($N \times N$)と$V$($N \times D$)の内積で($N \times D$)=OUT

RFA

$\phi(K)$の($1 \times D$)と$K^{T}$($D \times N$)の内積で($1 \times D$)=$A$

$\phi(Q)$の($N \times 1$)と$A$($1 \times D$)の内積で($N \times D$)=OUT

RFA-GATE

gate-RNNからヒントを得て，RFAの途中のスキップ接続（過去の情報を持ってくる）時に，その情報をどの割合で持ってくるのかを制御する．下の式から，$g_t$の数値はsigmoidで0~1に制限されて，$g_t$が1に近いほど，過去の情報を多め，0に近いほど，過去の情報を控えめにする．

結果

精度も計算コストの良くなったよ．また，SAのsoftmaxが必要亡くなったことでハイパラであるsoftmaxの($σ$)に影響されなくなった．

まとめ

今回は，SAの式に近似して計算効率向上したモデル【RFA】した．自然言語分野に詳しくなくて，大まかな説明になってしまい，間違ってるかもしれませんが許して．🙇

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up