Attention Is All You Need を読んでみた【Background & Model Architecture(前編)】

タイトルにもあるように,今更ですが本記事ではかの有名な論文"Attention Is All You Need."を読んでみようというものです.解説したい所ですが,既に偉大な先人方が分かりやすい記事を書かれており,到底,学生の身分である私では太刀打ちできません.


本記事では,BackgroundとModel Architectureを見ていきます.



第1段落 1文目

逐次計算を減らすという目標は、Extended Neural GPU [20]、ByteNet [15]、ConvS2S [8]の基盤にもなっており、これらはすべて畳み込みニューラルネットワークを基本構成ブロックとして使用し、すべての入出力位置に対して並列に隠れ表現を計算する。


第1段落 2~3文目

第1段落 4文目

Transformerでは、Attentionによって重み付けされた位置が均等になるため、有効な解像度が低下するが、これは3.2節で説明する Multi-Head Attentionによって打ち消される。

Transformerでは,並列計算 & 長距離依存関係の学習を達成したのですね.


Self-attention(intra-attentionと呼ばれることもある)は、系列の表現を計算するために、1つの系列の異なる位置を関連付けるattentionメカニズムである。Self-attention は、読解、簡潔な要約、文章含意、課題に依存しない文章表現の学習など、さまざまなタスクでうまく利用されている[4, 22, 23, 19]。

Self-attentionはその名の通りで,1つの系列 (Self) のattentionをおこなうメカニズムということらしいです.また,色々なタスクにも利用できるというのは魅力的ですね.


End-to-endの記憶ネットワークは、配列に沿った再帰ではなく、再帰的なattentionメカニズムに基づいており、単純な言語による質問応答や言語モデリングタスクで優れた性能を発揮することが示されている [28]。



しかし、我々の知る限り、Transformerは、配列整列RNNや畳み込みを使用せずに、入力と出力の表現を計算するためのSelf-attentionに完全に依存した最初の伝達モデルである。以下のセクションでは、Transformerについて説明し、self-attentionを説明し、[14, 15]や[8]のようなモデルに対する優位性について議論する。


Model Architecture


ほとんどの競合するニューラル配列伝達モデルは、エンコーダーとデコーダーの構造を持っている[5, 2, 29]。ここで、エンコーダは、入力された記号表現列$(x_1, ..., x_n)$を連続表現列$\mathbf{z} = (z_1, ..., z_n)$に写像する。与えられた$\mathbf{z}$から、デコーダは記号の出力列$(y_1, ..., y_m)$を1度に1要素ずつ生成する。各ステップにおいて、モデルは自己回帰的であり[9]、次の記号を生成する際に、以前に生成された記号を追加入力として受け取る。



Transformerは、図1の左半分と右半分にそれぞれ示されているように、エンコーダーとデコーダーの両方に、重ねたself-attentionとpoint-wise, 全結合層を使用し、この全体的なアーキテクチャを踏襲している。



Encoder and Decoder Stacks


第1段落 1文目

エンコーダー: エンコーダーは$N = 6$の同一レイヤーの積み重ねで構成される。



第1段落 2~3文目

各レイヤーには2つのサブレイヤーがある。1つ目はmulti-head self-attentionメカニズムであり、2つ目は単純な位置ワイズ全結合feed-forwardネットワークである。


第1段落 4~5文目

2つのサブレイヤーそれぞれに残差接続[10]を採用し、レイヤーの正規化[1]をおこなう。つまり、各サブレイヤーの出力は$LayerNorm(x + Sublayer(x))$であり、$Sublayer(x)$がサブレイヤー自身によって実装された関数である。


第1段落 6文目

このような残差接続を容易にするために、埋め込み層と同様に、モデルのすべてのサブレイヤーは、次元$d_{model} = 512$の出力を生成する。

残差接続(サブレイヤーの入力)とサブレイヤーの出力の次元が異なると$x + Sublayer(x)$が(単純には)定義できないため,全て512次元にしましょうということです.

第2段落 1文目

デコーダー: デコーダーもまた、$N = 6$の同一レイヤーの積み重ねで構成される。



第2段落 2~3文目

各エンコーダーレイヤーの2つのサブレイヤーに加えて、デコーダーは第3のサブレイヤーを挿入し、エンコーダ積層からの出力に対してmulti-head attentionを実行する。エンコーダーと同様に、各サブレイヤーに残差接続を採用し、レイヤーの正規化をおこなう。

デコーダもエンコーダと同様,サブレイヤーから構成されており,最も上のレイヤー (Feed Forward) と最も下のレイヤー (Masked Multi-Head Attention) については,エンコーダのサブレイヤーと(ほぼ)同じです.
またここでは,デコーダのサブレイヤーのうち,真ん中のMulti-Head Attentionについて説明しており,エンコーダの出力を受け取っています.

第2段落 4~5文目

イメージの話ですが,例えば「私は学生です。」という文章を翻訳することを仮定すると,モデルは"I *** a student."に対して全てを用いることはできず,日本語文と"I"から"am"を推定するようになっているということかなと思います.("a student."の部分を何故使ってはならないかという点については個人的に疑問が残っていますが......)



次回は引き続きModel Architectureの章を読み進めていきたいと思います.更新は片手間におこなっているので次がいつになるかは未定ですが,もしよろしければ次をお待ち下さい!


