【論文毎日読んでみる1】Transformerが発表された論文 "Attention is All You Need" (Vaswani et al., 2017)

Last updated at 2024-06-28Posted at 2024-06-27

読んだ論文

本記事は以下の論文を読んだ際に記録した要約とメモです。
Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).

この論文は、Transformerアーキテクチャの基礎を築いたもので、現在の多くのLLMの基盤となっています。
特に、注意機構がどのようにデータを処理し、関連性を見出すかについての理解が経済学におけるデータ分析にも応用可能です。

要約とメモ

1. introduction

リカレントニューラルネットワーク（RNN）は、シーケンスデータを扱うために設計されたニューラルネットワークの一種です。特に、長短期記憶（LSTM）やゲーティッドリカレントユニット（GRU）は、言語モデリングや機械翻訳などにおける最先端のアプローチとして知られています。RNNの強みは、繰り返される事象の予測や、時間的な依存関係を持つデータの処理に適していることです。具体的な応用例には、機械翻訳、時系列予測、自然言語処理、音声認識などがあります。

2. Background

従来のRNNや畳み込みニューラルネットワーク（CNN）において、長距離依存関係を学習するための計算量が増加する問題があります。Transformerモデルは、これらの問題を解決するために、完全に自己注意機構に依存した最初のモデルとして提案されました。

3. モデルアーキテクチャ

モデルに関する説明（読み飛ばしちゃった）
興味のある方は原論文を参照してください。

4. なぜ自己注意なのか

自己注意層の目的は、リカレント層や畳み込み層などと同じ
とはいえm自己注意を使う理由がある

レイヤーごとの総計算量
並列化できる計算量
ネットワーク内の長距離依存関係感のパスの長さ
副次的な利点として、解釈しやすいモデルになりやすいかも

5. training

WMT 2014英独翻訳タスクとWMT 2014英仏翻訳タスクを実施
NVIDIA P100 GPUを8台搭載した1台のマシンでモデルを学習させた。(3.5日学習にかかった)
BLEUスコアで評価
- BLEUスコア（Bilingual Evaluation Understudy）は、機械翻訳システムの性能を評価するために広く用いられる自動評価指標の一つです
- BLEUスコアは、生成された翻訳と人間が作成した参照翻訳との一致度を定量的に測定します
- BLEUスコアは0から1の範囲で表され、1に近いほど生成された翻訳が参照翻訳と一致していることを示します。

6. Result

WMT 2014英独翻訳タスクでは、Transformerモデルがこれまでの最良のモデルを上回る結果を示しました。英仏翻訳タスクでも、非常に高いBLEUスコアを達成しました。

7. conclusion

本研究では、(エンコーダ・デコーダのアーキテクチャで最も一般的に使用される)リカレント層を、多頭の自己注意に置き換えた完全に注意に基づく最初のシーケンス変換モデルであるTransformerを発表した
モデルの学習と評価に使用したコードは、https://github.com/tensorflow/tensor2tensorで公開されている。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up