1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

SAの式に近似して計算効率向上したモデル【RFA】

Posted at

原論文
RANDOM FEATURE ATTENTION
https://arxiv.org/pdf/2103.02143.pdf

結論

Self-Attentionの式に近似して計算効率向上したモデルを提案した.

概要

自然言語分野のTransformerは,長距離の文字を考慮した高精度をもたらすモデルだが,単語数が多くなると,単語数の2条の計算コストが必要で,長い文章に対して効率的に計算できない.
Transformerの構造で,Self-Attention(SA)の計算が重いので,もっと計算効率のいいSAを提案してみたよ.
確立されたランダム特徴マップを用いて,SAの代わりに代用できる,計算コストの小さい,ランダム特徴アテンション(RFA)を提案を提案する.

モデル構造

下図に示すように,(a)のSAを置き換えるように,(b)のRFAを提案する.
(・)は入力された2つの行列の内積,φ(・)は非線形変換であり,softmaxの代わりに近似させる.

※非線形変換は,入力がxの時,y=f(xW).
Wが重みで,F()が,活性化関数(ReLUなど).

スクリーンショット 2024-03-03 10.41.56.png

RFA

具体的には違うけど,簡単に言うと,SAの式を近似した式に置き換えているだけである.

SA(Q,K,V)=\mathrm{softmax} \left( {Q K} \right) V
RFA(Q,K,V)= \phi (Q) \lbrace \phi (K) V \rbrace

例えば, $\phi(・)$で特徴量のサイズを小さくすると,途中の計算量が小さくなるよね.

計算例

QKVのサイズが$N \times D$の特徴量を持っている時

SA

$Q$($N \times D$)と$K^{T}$($D \times N$)の内積で($N \times N$)=$A$

$A$($N \times N$)と$V$($N \times D$)の内積で($N \times D$)=OUT

RFA

$\phi(K)$の($1 \times D$)と$K^{T}$($D \times N$)の内積で($1 \times D$)=$A$

$\phi(Q)$の($N \times 1$)と$A$($1 \times D$)の内積で($N \times D$)=OUT

RFA-GATE

gate-RNNからヒントを得て,RFAの途中のスキップ接続(過去の情報を持ってくる)時に,その情報をどの割合で持ってくるのかを制御する.下の式から,$g_t$の数値はsigmoidで0~1に制限されて,$g_t$が1に近いほど,過去の情報を多め,0に近いほど,過去の情報を控えめにする.

スクリーンショット 2024-03-03 11.48.22.png

結果

精度も計算コストの良くなったよ.また,SAのsoftmaxが必要亡くなったことでハイパラであるsoftmaxの($σ$)に影響されなくなった.

まとめ

今回は,SAの式に近似して計算効率向上したモデル【RFA】した.自然言語分野に詳しくなくて,大まかな説明になってしまい,間違ってるかもしれませんが許して.🙇

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?