0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Attention Is All You Need: トランスフォーマー

Last updated at Posted at 2023-02-03

論文

https://arxiv.org/abs/1706.03762
Submitted on 12 Jun 2017
cited by 64332
Jakob Uszkoreitさんは、RNNの代わりとしてself-attention考案していた。これまでAttentionはRNNに適用されていた

結論

  • Attention機構があればRNNいらない
    • レイヤーごとの計算量が小さい
    • 並列計算できる
    • 遠距離も直接参照できる
    • Attentionの強さ表示で、推論を理解・解釈可能

感想

  • Attentionの大切さを世に知らしめた
  • BertやGPTなど、NLPモデル発達の基礎となった
    • BertはTransformerのEncoderのみ、GPTはDecoderのみを利用
  • 実際に、NLPでRNNはほぼ駆逐された
    • NLP以外ではTimeSriesが対象範囲だが、ここはDL以外がSOTA

詳細

Screen Shot 2023-02-02 at 16.08.15.png

Scaled Dot-Product Attention

Screen Shot 2023-02-02 at 15.56.41.png

  • scaled = 1/(√dk) 内積を集めたSoftmaxが大きくなりすぎないように
  • 系列データや集合データに対してのSoftmax
  • Decoderでは、右側の文字をmaskして読まないようにする

Multi-Head Attention

Screen Shot 2023-02-02 at 16.05.56.png

  • Attentionを並行して複数行い、Concat&Affineする
  • Q, K, Vの次元は「データ次元/ヘッド数」に下げることで、計算コストを抑える

その他

  • Feed-Foward Networkでは、内部レイヤーの次元を上げて、CNNのChannelのように広げる
  • 位置符号をSine・Cosineなどで入れる。位置情報。順序情報。
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?