原論文
RANDOM FEATURE ATTENTION
https://arxiv.org/pdf/2103.02143.pdf
結論
Self-Attentionの式に近似して計算効率向上したモデルを提案した.
概要
自然言語分野のTransformerは,長距離の文字を考慮した高精度をもたらすモデルだが,単語数が多くなると,単語数の2条の計算コストが必要で,長い文章に対して効率的に計算できない.
Transformerの構造で,Self-Attention(SA)の計算が重いので,もっと計算効率のいいSAを提案してみたよ.
確立されたランダム特徴マップを用いて,SAの代わりに代用できる,計算コストの小さい,ランダム特徴アテンション(RFA)を提案を提案する.
モデル構造
下図に示すように,(a)のSAを置き換えるように,(b)のRFAを提案する.
(・)は入力された2つの行列の内積,φ(・)は非線形変換であり,softmaxの代わりに近似させる.
※非線形変換は,入力がxの時,y=f(xW).
Wが重みで,F()が,活性化関数(ReLUなど).
RFA
具体的には違うけど,簡単に言うと,SAの式を近似した式に置き換えているだけである.
SA(Q,K,V)=\mathrm{softmax} \left( {Q K} \right) V
RFA(Q,K,V)= \phi (Q) \lbrace \phi (K) V \rbrace
例えば, $\phi(・)$で特徴量のサイズを小さくすると,途中の計算量が小さくなるよね.
計算例
QKVのサイズが$N \times D$の特徴量を持っている時
SA
$Q$($N \times D$)と$K^{T}$($D \times N$)の内積で($N \times N$)=$A$
$A$($N \times N$)と$V$($N \times D$)の内積で($N \times D$)=OUT
RFA
$\phi(K)$の($1 \times D$)と$K^{T}$($D \times N$)の内積で($1 \times D$)=$A$
$\phi(Q)$の($N \times 1$)と$A$($1 \times D$)の内積で($N \times D$)=OUT
RFA-GATE
gate-RNNからヒントを得て,RFAの途中のスキップ接続(過去の情報を持ってくる)時に,その情報をどの割合で持ってくるのかを制御する.下の式から,$g_t$の数値はsigmoidで0~1に制限されて,$g_t$が1に近いほど,過去の情報を多め,0に近いほど,過去の情報を控えめにする.
結果
精度も計算コストの良くなったよ.また,SAのsoftmaxが必要亡くなったことでハイパラであるsoftmaxの($σ$)に影響されなくなった.
まとめ
今回は,SAの式に近似して計算効率向上したモデル【RFA】した.自然言語分野に詳しくなくて,大まかな説明になってしまい,間違ってるかもしれませんが許して.🙇