論文
https://arxiv.org/abs/1706.03762
Submitted on 12 Jun 2017
cited by 64332
Jakob Uszkoreitさんは、RNNの代わりとしてself-attention考案していた。これまでAttentionはRNNに適用されていた
結論
- Attention機構があればRNNいらない
- レイヤーごとの計算量が小さい
- 並列計算できる
- 遠距離も直接参照できる
- Attentionの強さ表示で、推論を理解・解釈可能
感想
- Attentionの大切さを世に知らしめた
- BertやGPTなど、NLPモデル発達の基礎となった
- BertはTransformerのEncoderのみ、GPTはDecoderのみを利用
- 実際に、NLPでRNNはほぼ駆逐された
- NLP以外ではTimeSriesが対象範囲だが、ここはDL以外がSOTA
詳細
Scaled Dot-Product Attention
- scaled = 1/(√dk) 内積を集めたSoftmaxが大きくなりすぎないように
- 系列データや集合データに対してのSoftmax
- Decoderでは、右側の文字をmaskして読まないようにする
Multi-Head Attention
- Attentionを並行して複数行い、Concat&Affineする
- Q, K, Vの次元は「データ次元/ヘッド数」に下げることで、計算コストを抑える
その他
- Feed-Foward Networkでは、内部レイヤーの次元を上げて、CNNのChannelのように広げる
- 位置符号をSine・Cosineなどで入れる。位置情報。順序情報。