1 日 1 回 (努力目標) 論文の Abstract を DeepL 翻訳の力を借りて読んでいきます.
この記事は自分用のメモみたいなものです.
ほぼ DeepL 翻訳でお送りします.
間違いがあれば指摘していだだけると嬉しいです.
Abstract
訳文
主なシーケンス伝達モデルは, エンコーダ-デコーダ構成の複雑な再帰ニューラルネットワークまたは畳み込みニューラルネットワークに基づいている. また, 最高のパフォーマンスを発揮するモデルは, アテンションメカニズムを介してエンコーダとデコーダを接続している. 我々は, 再帰や畳み込みを完全に排除して, アテンションメカニズムのみに基づいた新しいシンプルなネットワークアーキテクチャ, トランスフォーマーを提案する. $2$ つの機械翻訳タスクでの実験では, これらのモデルは品質が優れている一方で, より並列化が可能であり, トレーニングに要する時間が大幅に短縮されていることが示されてる. 我々のモデルは, WMT 2014 の英独翻訳タスクで $28.4$ BLEU を達成し, アンサンブルを含む既存の最良の結果を $2$ BLEU 以上改善した. WMT 2014 の英仏翻訳タスクにおいて, 我々のモデルは, $8$ つのGPUで $3.5$ 日間のトレーニングを行った後 (これは, 文献の最良モデルのトレーニングコストのごく一部), $41.8$ という新しいシングルモデルの最先端 BLEU スコアを確立した. 我々は, 大規模な学習データと限られた学習データの両方で英語の constituency parsing に適用することで, トランスフォーマーが他のタスクにもうまく一般化することを示している.
原文
The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. Our model achieves 28.4 BLEU on the WMT 2014 English-to-German translation task, improving over the existing best results, including ensembles by over 2 BLEU. On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.8 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature. We show that the Transformer generalizes well to other tasks by applying it successfully to English constituency parsing both with large and limited training data.