はじめに
この記事は Sebastian Ruder が Aylien のブログに投稿した A Review of the Neural History of Natural Language Processing という記事の和訳をする連載の前編です(後編は明日公開予定)。
英文の元記事は Herman Kamper と Sebastian Ruder が Deep Learning Indaba 2018 でオーガナイズした Frontiers of Natural Language Processing というセッションで話した内容を詳しく説明するために書かれたもので、セッション全体のスライドはこちらで公開されています。
この記事では、ニューラルネットに基づく手法に焦点を当てながら、自然言語処理の近年の主な発展について取り扱います。
注意:この記事では、15年以上にわたる研究の成果を特に関連性の高い8つのマイルストーンに集約しようとしているため、省略されている関連研究もあります。特に、マイルストーンは近年のニューラルなアプローチに着目しているため、この期間中にニューラルでない手法が全く影響を及ぼしていないという印象を与えてしまうかもしれませんが、それは誤りです。さらに重要なこととして、この記事で示したニューラルネットワークモデルの多くは、同じ時代のニューラルネットによらない研究をもとに構築されています。こうした、その後の手法の発展のための礎を築いた非常に重要な研究については、この記事の連載の後編の最後のセクションで強調してお伝えしたいと思います。
2001 – Neural language models
言語モデリングは、あるテキスト中のある単語列が与えられたとき、その単語列の次の単語を予測するタスクです。これはおそらくもっとも単純な言語処理タスクですが、SwiftKey やメールの返信提案 (Kannan et al., 2016)1 といった具体的かつ実用的なアプリケーションに利用されています。
当然ながら、言語モデリングには豊かな歴史があります。古典的なアプローチは n-gram に基づいており、学習データで一度も発生しない n-gram に対処するためにスムージングを採用しています (Kneser & Ney, 1995)2 (訳註:言語モデルとスムージングについてはこちらの資料もご参照ください)。
さて、最初のニューラル言語モデルである feed-forward neural network は、2001年に Bengio らによって提案されました3。これを以下の Figure 1 に示します:
Figure 1: A feed-forward neural network language model (Bengio et al., 2001; 2003)
このモデルは入力として直前の $n$ 個の単語を表すインデックスを取り、各単語について行列 $C$ のうち該当するベクトルを探します(訳註: Figure 1 の $C$ を用いて表現すると、単語のインデックス $w_i$ から $C(w_i)$ を求めている矢印がこの処理に該当します。「検索」という表現が使われていますが、実際には $C(w_i)$ を求める処理は行列演算です。また、 $C$ も学習の過程で獲得されます)。今日、そのようなベクトル $C(w_i)$ は単語埋め込み (word embeddings) として知られています。
これらの単語ベクトルは連結されて隠れ層に送られ、その出力はさらに softmax layer に送られます。出力として「いまの context で、各単語が次に現れる確率」を表現するベクトルが手に入りますから、これが言語モデルそのものになっているといえます。このモデルのさらなる詳細についてはこの投稿をご覧ください。
最近では、言語モデリングのために recurrent neural networks (RNNs; Mikolov et al., 2010)4 や long short-term memory networks (LSTMs; Graves, 2013)5 が feed-forward neural networks の替わりに使われます。
さらに、古典的なLSTMを拡張することによって多くの新しい言語モデルが提案されています(概要についてはこのページをご覧ください)が、こうした進展にもかかわらず、古典的なLSTMは依然として強力なベースラインとして機能し続けています (Melis et al., 2018)6。
この原因の一つして、近年提案されているようなより洗練されたモデルでも、直近の単語しか考慮しないように学習されているという研究もあり (Daniluk et al., 2017)7 、問題設定によっては Bengio らの古典的な feed-forward neural networks と同じような性能にしか到達しないこともあります。このように、言語モデルが結果としてどのような情報を捉えているかをよりよく理解することは、盛んに研究されている分野でもあります (Kuncoro et al., 2018; Blevins et al., 2018)8 9。
言語モデリングは教師なし学習の一種で、 Yann LeCun はこれを predictive learning と呼び、常識を獲得するための前提条件として挙げています(NIPS 2016 での Cake Slide もご覧ください )。
言語モデリングのもっとも重要な点はおそらく、その単純さにもかかわらず、この記事で紹介するのちの発展のコアとなっていることです。
- Word embeddings: word2vec の目的は、言語モデリングの単純化そのものです。
- Sequence-to-sequence models: このモデルは一度に1つの単語を予測することでシーケンス(系列)を出力します。
- Pretrained language models: この手法は transfer learning のために言語モデルの表現を利用します。
これは、逆に言えば、NLPにおける最近の特に重要な進歩の多くが言語モデルの一形態に帰着することを意味します。しかし、「本物の」自然言語理解を行うためには、生の状態のテキストから学習するだけでは不十分であり、新しい手法やモデルが必要になるでしょう。
2008 – Multi-task learning
マルチタスク学習は、異なるタスクで訓練された複数のモデルの間でパラメータを共有する一般的な方法です。ニューラルネットでは、異なるレイヤーの重みを結びつけることで容易にマルチタスク学習を行うことができます。
マルチタスク学習のアイデアは1993年に Rich Caruana によって提案され10、肺炎の予測などのタスクに適用されました (Caruana, 1998)11。
直感的には、マルチタスク学習は、モデルが複数のタスクに有用な表現を学習するよう促すものです。
これは、汎用的な低レベルの表現を学習する際や、モデルの attention を集中させる際や、学習データの量が限られた設定下で学習を行う際などに特に役立ちます。マルチタスク学習に関するより包括的な概要については、この記事をご覧ください。
マルチタスク学習が最初にNLPのためのニューラルネットに適用されたのは2008年のことで、これは Collobert と Weston によるものでした 12 13。これらのモデルでは、単語埋め込みを表現する行列 (word embedding matrices) $\mathrm{LT}_{w^1}$ が、以下の Figure 2 に示すように、異なるタスクで訓練された2つのモデル間で共有されます。
Figure 2: Sharing of word embedding matrices (Collobert & Weston, 2008; Collobert et al., 2011)
$\mathrm{LT}_{w^1}$ を共有することで、これに格納された汎用的で低レベルな情報を2つのタスクをまたいで利用することができます。この単語埋め込み行列は、典型的にはモデルの中でもっとも多くのパラメータからなることが多いです。
2008年の Collobert と Weston の論文は、 単語埋め込みの事前学習 (pretraining word embeddings) や、ここ数年広く採用されてきたテキストのための convolutional neural networks (CNN) の利用といったアイデアを先導しました。また、この論文は ICML 2018 の test-of-time award を受賞しました(論文に関して述べられた test-of-time award での講演はこちらをご参照ください)。こうした様々な貢献から、彼らの論文は、単にマルチタスク学習のために利用する以上の影響力があるといえるでしょう。
既存のタスクや人工的なタスクを活用したマルチタスク学習によって構築されたモデルを利用して、NLPのための便利なツールのレパートリーが増えました。そうした補助タスクの概要についてはこの記事をご覧ください。
パラメータの共有は典型的にはあらかじめ定義されているものですが、異なるパラメータ共有のパターンを最適化プロセスの中で学習することもできます (Ruder et al., 2017)14。
モデルの汎化性能を計測するために複数のタスクでモデルが評価されるようになってきていることで、マルチタスク学習の重要性が高まっており、最近ではマルチタスク学習専用のベンチマークも提案されています (Wang et al., 2018; McCann et al., 2018)15 16。
2013 – Word embeddings
テキストの疎 (sparse) なベクトル表現、いわゆる bag-of-words は、NLPにおける長い歴史をもっています。一方、言語モデルの節で述べましたが、単語や単語埋め込みの密 (dense) なベクトル表現の考え方は2001年には用いられています。こうした密なベクトル表現に関する重要な革新は2013年に Mikolov ら17 18 によって提案され、これは、隠れ層を取り除き、目的関数を近似することで、単語埋め込みの学習をより効率的にしました。こうした変更は本質的には単純なものでしたが、効率的な word2vec の実装に伴って、大量の単語埋め込みの学習を可能にしました。
Word2vec は、以下の Figure 3 に示すように continuous bag-of-words (CBOW) と skip-gram という2つの流派があります。これらは目的関数が異なっており、CBOWは周辺の単語に基づいて中心の単語を予測するのに対し、 skip-gram ではその逆で、中心の単語から周辺の単語を予測します。
Figure 3: Continuous bag-of-words and skip-gram architectures (Mikolov et al., 2013a; 2013b)
これらの単語埋め込みは、概念的には feed-forward neural network で学習した埋め込み(Figure 1 の $C$)と異なるわけではありませんが、非常に大きいコーパスでの訓練によって、性別、動詞の時制、 国と首都といった単語感の特定の関係を捉えることができるようになりました。以下の Figure 4 を参照してください。
Figure 4: Relations captured by word2vec (Mikolov et al., 2013a; 2013b)
これらの関係やその背後にある意味は、研究者の単語埋め込みに関する関心を喚起し、多くの研究でこれらの線形関係の出所が調べられてきました (Arora et al., 2016; Mimno & Thompson, 2017; Antoniak & Mimno, 2018; Wendlandt et al., 2018) 19 20 21 22。
さまざまな種類のタスクで、初期化として学習済みの単語埋め込みを利用することでパフォーマンスが向上することが確認された23ことにより、現在では単語埋め込みはNLPの主軸としての立場を確固たるものにしています。
Word2vec が捉えた関係は、直観的で、ほとんど魔法のような品質でしたが、のちの研究では、word2vecには本質的には特別なものはないことが示されました:単語埋め込みは行列分解を用いることでも学習することができます (Pennington et al, 2014; Levy & Goldberg, 2014) 24 25 し、適切なチューニングを行えば、SVDやLSAといった古典的なアプローチによっても同様の結果が得られます (Levy et al., 2015) 26。
2013年の Mikolov らの研究が発表されて以来、原論文の信じられないほどの引用数が示しているように、単語埋め込みのさまざまな面を探求するための数多くの研究が行われてきました。この分野に関する研究の趨勢と今後の方向性に関してはこの記事をご覧ください。とはいえ、こうした多くの発展にもかかわらず、オリジナルの word2vec は依然として人気の選択肢であり、こんにちでも広く利用されています。
Word2vec の適用範囲は単語のレベルを超えて拡張されています。局所的なコンテキストに基づいた埋め込みを学習するための便利な目的関数である negative sampling に基づく skip-gram は文の表現を学習するために適用されています (Mikolov & Le, 2014; Kiros et al., 2015)27 28。さらにこれはNLPを超えて、ネットワークに応用されたり (Grover & Leskovec, 2016)29、生物学的な配列に適用されたり (Asgari & Mofrad, 2015)30 もしています。
特に面白い研究の方向の一つは、異なる言語の単語埋め込みを同じ空間に射影して、 (zero-shot) cross-lingual transfer を可能にすることです。(少なくとも似た言語については)完全に unsupervised な方法で、良い射影を学習することが可能になってきています31 32 33。これによって、リソースが少ない言語や教師なし機械翻訳といった応用への道が拓けてきています (Lample et al., 2018; Artetxe et al., 2018)34 35。概要については (Ruder et al., 2018)36 をご覧ください。
2013 – Neural networks for NLP
2013年から2014年にかけては、ニューラルネットワークのモデルがNLPで採用され始めました。
リカレントニューラルネットワーク (recurrent neural networks)、畳み込みニューラルネットワーク (convolutional neural networks)、再帰型ニューラルネットワーク (recursive neural networks) の3種類が最も広く用いられています。
Recurrent neural networks
Recurrent neural networks (RNN) は、NLPの問題ではいたるところに現れる動的な入力シーケンスを処理するためには最善と思われる選択肢です。オリジナルのRNN (Elman, 1990)37 は、勾配消失問題(あるいは勾配爆発問題)へのより強い耐性をもつ古典的なLSTM (Hochreiter & Schmidhuber, 1997)38にすぐに淘汰されました。
2013年以前は、RNNはまだ訓練が難しいと考えられていましたが、 Ilya Sutskever の博士論文がこの評価を変えるための重要な例を示しました。LSTMのセルの図解を Figure 5 に示します。双方向LSTM (bidirectional LSTM) (Graves et al., 2013)39 は、典型的には、左右からの文脈の両方を扱うために利用されます。
Figure 5: An LSTM network (Source: Chris Olah)
Convolutional neural networks
コンピュータビジョンで広く利用されている畳み込みニューラルネットワーク (CNN) は、言語にも適用されるようになりました (Kalchbrenner et al., 2014; Kim et al., 2014)40 41。テキストのためのCNNは2次元でしか機能せず、フィルタは時間方向に沿って移動する必要があるだけです。以下の Figure 6 では、NLPで使用される典型的なCNNを示しています。
Figure 6: A convolutional neural network for text (Kim, 2014)
CNNの利点は、各タイムステップの状態がRNNのようにすべての過去の状態ではなく(畳み込み演算を介して)局所的なコンテキストにのみ依存するため、RNNよりも並列性が高いことです。CNNは、より広範なコンテキストを捉えるために、拡張された畳み込みを用いたさらに大きな受容野によって拡張することができます (Kalchbrenner et al., 2016)42。CNNとLSTMを連結させて積み重ねることもできますし43、LSTMを高速化するために畳み込みを使うこともできます44。
Recursive neural networks
RNNとCNNはどちらも言語を系列として扱います。しかし、言語学的な観点から見れば言語は本質的には階層的です。単語は、より高次の句と節を構成し、それらの句や節自身もまた、生成規則の集合にしたがって再帰的に結合されます。文を系列としてではなく木として扱うという言語学的な知見に基づいたアイデアは、Figure 7 に示すような再帰型ニューラルネットワーク45の出現に寄与しました。
Figure 7: A recursive neural network (Socher et al., 2013)
再帰型ニューラルネットワークは、文を左から右、または右から左に処理するRNNとは対照的に、ボトムアップに系列の表現を構築します。木の各ノードについて、新しい表現はその小ノードの表現を合成することによって計算されます。木はRNN上での特殊な処理の順序を課したものとみなすこともできるので、LSTMもまた自然に木に拡張されています46。
RNNとLSTMだけが階層構造で動作するように拡張することができるわけではありません。
Word embeddings は局所的な文脈だけではなく、文法的な文脈に基づいて学習することもできます (Levy & Goldberg, 2014)47し、言語モデルは syntactic stack に基づいて単語を生成することができます (Dyer et al., 2016)48し、 graph-convolutional neural networks は木構造を取り扱うことができます (Bastings et al., 2017)49。
おわりに
後編に続きます。
参考文献
-
Kannan, A., Kurach, K., Ravi, S., Kaufmann, T., Tomkins, A., Miklos, B., … & Ramavajjala, V. (2016, August). Smart reply: Automated response suggestion for email. In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (pp. 955-964). ACM. ↩
-
Kneser, R., & Ney, H. (1995, May). Improved backing-off for m-gram language modeling. In icassp (Vol. 1, p. 181e4). ↩
-
Bengio, Y., Ducharme, R., & Vincent, P. (2001). Proceedings of NIPS. ↩
-
Mikolov, T., Karafiát, M., Burget, L., Černocký, J., & Khudanpur, S. (2010). Recurrent neural network based language model. In Eleventh Annual Conference of the International Speech Communication Association. ↩
-
Graves, A. (2013). Generating sequences with recurrent neural networks. arXiv preprint arXiv:1308.0850. ↩
-
Melis, G., Dyer, C., & Blunsom, P. (2018). On the State of the Art of Evaluation in Neural Language Models. In Proceedings of ICLR 2018. ↩
-
Daniluk, M., Rocktäschel, T., Weibl, J., & Riedel, S. (2017). Frustratingly Short Attention Spans in Neural Language Modeling. In Proceedings of ICLR 2017. ↩
-
Kuncoro, A., Dyer, C., Hale, J., Yogatama, D., Clark, S., & Blunsom, P. (2018). LSTMs Can Learn Syntax-Sensitive Dependencies Well, But Modeling Structure Makes Them Better. In Proceedings of ACL 2018 (pp. 1–11). Retrieved from http://aclweb.org/anthology/P18-1132 ↩
-
Blevins, T., Levy, O., & Zettlemoyer, L. (2018). Deep RNNs Encode Soft Hierarchical Syntax. In Proceedings of ACL 2018. Retrieved from http://arxiv.org/abs/1805.04218 ↩
-
Caruana, R. (1993). Multitask learning: A knowledge-based source of inductive bias. In Proceedings of the Tenth International Conference on Machine Learning. ↩
-
Caruana, R. (1998). Multitask Learning. Autonomous Agents and Multi-Agent Systems, 27(1), 95–133. ↩
-
Collobert, R., & Weston, J. (2008). A unified architecture for natural language processing. In Proceedings of the 25th International Conference on Machine Learning (pp. 160–167). ↩
-
Collobert, R., Weston, J., Bottou, L., Karlen, M., Kavukcuoglu, K., & Kuksa, P. (2011). Natural Language Processing (almost) from Scratch. Journal of Machine Learning Research, 12(Aug), 2493–2537. Retrieved from http://arxiv.org/abs/1103.0398. ↩
-
Ruder, S., Bingel, J., Augenstein, I., & Søgaard, A. (2017). Learning what to share between loosely related tasks. ArXiv Preprint ArXiv:1705.08142. Retrieved from http://arxiv.org/abs/1705.08142 ↩
-
Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, S. R. (2018). GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. ↩
-
Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., & Bowman, S. R. (2018). GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding. ↩
-
Mikolov, T., Corrado, G., Chen, K., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. Proceedings of the International Conference on Learning Representations (ICLR 2013). ↩
-
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Distributed Representations of Words and Phrases and their Compositionality. In Advances in Neural Information Processing Systems. ↩
-
Arora, S., Li, Y., Liang, Y., Ma, T., & Risteski, A. (2016). A Latent Variable Model Approach to PMI-based Word Embeddings. TACL, 4, 385–399. ↩
-
Mimno, D., & Thompson, L. (2017). The strange geometry of skip-gram with negative sampling. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing (pp. 2863–2868). ↩
-
Antoniak, M., & Mimno, D. (2018). Evaluating the Stability of Embedding-based Word Similarities. Transactions of the Association for Computational Linguistics, 6, 107–119. ↩
-
Wendlandt, L., Kummerfeld, J. K., & Mihalcea, R. (2018). Factors Influencing the Surprising Instability of Word Embeddings. In Proceedings of NAACL-HLT 2018. ↩
-
Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. Proceedings of the Conference on Empirical Methods in Natural Language Processing, 1746–1751. Retrieved from http://arxiv.org/abs/1408.5882 ↩
-
Pennington, J., Socher, R., & Manning, C. D. (2014). Glove: Global Vectors for Word Representation. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, 1532–1543. ↩
-
Levy, O., & Goldberg, Y. (2014). Neural Word Embedding as Implicit Matrix Factorization. Advances in Neural Information Processing Systems (NIPS), 2177–2185. Retrieved from http://papers.nips.cc/paper/5477-neural-word-embedding-as-implicit-matrix-factorization ↩
-
Levy, O., Goldberg, Y., & Dagan, I. (2015). Improving Distributional Similarity with Lessons Learned from Word Embeddings. Transactions of the Association for Computational Linguistics, 3, 211–225. Retrieved from https://tacl2013.cs.columbia.edu/ojs/index.php/tacl/article/view/570 ↩
-
Le, Q. V., & Mikolov, T. (2014). Distributed Representations of Sentences and Documents. International Conference on Machine Learning – ICML 2014, 32, 1188–1196. Retrieved from http://arxiv.org/abs/1405.4053 ↩
-
Kiros, R., Zhu, Y., Salakhutdinov, R., Zemel, R. S., Torralba, A., Urtasun, R., & Fidler, S. (2015). Skip-Thought Vectors. In Proceedings of NIPS 2015. Retrieved from http://arxiv.org/abs/1506.06726 ↩
-
Grover, A., & Leskovec, J. (2016, August). node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 855-864). ACM. ↩
-
Asgari, E., & Mofrad, M. R. (2015). Continuous distributed representation of biological sequences for deep proteomics and genomics. PloS one, 10(11), e0141287. ↩
-
Conneau, A., Lample, G., Ranzato, M., Denoyer, L., & Jégou, H. (2018). Word Translation Without Parallel Data. In Proceedings of ICLR 2018. Retrieved from http://arxiv.org/abs/1710.04087 ↩
-
Artetxe, M., Labaka, G., & Agirre, E. (2018). A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings. In Proceedings of ACL 2018. ↩
-
Søgaard, A., Ruder, S., & Vulić, I. (2018). On the Limitations of Unsupervised Bilingual Dictionary Induction. In Proceedings of ACL 2018. ↩
-
Lample, G., Denoyer, L., & Ranzato, M. (2018). Unsupervised Machine Translation Using Monolingual Corpora Only. In Proceedings of ICLR 2018. ↩
-
Artetxe, M., Labaka, G., Agirre, E., & Cho, K. (2018). Unsupervised Neural Machine Translation. In Proceedings of ICLR 2018. Retrieved from http://arxiv.org/abs/1710.11041 ↩
-
Ruder, S., Vulić, I., & Søgaard, A. (2018). A Survey of Cross-lingual Word Embedding Models. To be published in Journal of Artificial Intelligence Research. Retrieved from http://arxiv.org/abs/1706.04902 ↩
-
Elman, J. L. (1990). Finding structure in time. Cognitive science, 14(2), 179-211. ↩
-
Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8), 1735-1780. ↩
-
Graves, A., Jaitly, N., & Mohamed, A. R. (2013, December). Hybrid speech recognition with deep bidirectional LSTM. In Automatic Speech Recognition and Understanding (ASRU), 2013 IEEE Workshop on (pp. 273-278). IEEE. ↩
-
Kalchbrenner, N., Grefenstette, E., & Blunsom, P. (2014). A Convolutional Neural Network for Modelling Sentences. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (pp. 655–665). Retrieved from http://arxiv.org/abs/1404.2188 ↩
-
Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. Proceedings of the Conference on Empirical Methods in Natural Language Processing, 1746–1751. Retrieved from http://arxiv.org/abs/1408.5882 ↩
-
Kalchbrenner, N., Espeholt, L., Simonyan, K., Oord, A. van den, Graves, A., & Kavukcuoglu, K. (2016). Neural Machine Translation in Linear Time. ArXiv Preprint ArXiv: Retrieved from http://arxiv.org/abs/1610.10099 ↩
-
Wang, J., Yu, L., Lai, K. R., & Zhang, X. (2016). Dimensional Sentiment Analysis Using a Regional CNN-LSTM Model. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016), 225–230. ↩
-
Bradbury, J., Merity, S., Xiong, C., & Socher, R. (2017). Quasi-Recurrent Neural Networks. In ICLR 2017. Retrieved from http://arxiv.org/abs/1611.01576 ↩
-
Socher, R., Perelygin, A., & Wu, J. (2013). Recursive deep models for semantic compositionality over a sentiment treebank. Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 1631–1642. ↩
-
Tai, K. S., Socher, R., & Manning, C. D. (2015). Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks. Acl-2015, 1556–1566. ↩
-
Levy, O., & Goldberg, Y. (2014). Dependency-Based Word Embeddings. In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Short Papers) (pp. 302–308). https://doi.org/10.3115/v1/P14-2050 ↩
-
Dyer, C., Kuncoro, A., Ballesteros, M., & Smith, N. A. (2016). Recurrent Neural Network Grammars. In NAACL. Retrieved from http://arxiv.org/abs/1602.07776 ↩
-
Bastings, J., Titov, I., Aziz, W., Marcheggiani, D., & Sima’an, K. (2017). Graph Convolutional Encoders for Syntax-aware Neural Machine Translation. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. ↩