More than 5 years have passed since last update.

A Review of the Neural History of Natural Language Processing (和訳) 後編

Last updated at Posted at 2018-12-06

この記事は scouty Advent Calendar 2018 の6日目です。

前回に引き続き、「A Review of the Neural History of Natural Language Processing」の後半を和訳していきます。翻訳は相当に意訳です。よい訳語がみつからなかった technical term は英語表記をそのまま残してあります。間違いがあったらこっそり教えていただけると幸せです。

2014 - Sequence-to-sequence モデル

2014年に、Sutskever ら1 は、ニューラルネットワークを用いて系列データ(シーケンス)を別の系列データにマッピングする一般的なフレームワークである sequence-to-sequence 学習を提案した。
このフレームワークにおいて、エンコーダは文のシンボル(単語など)を1つずつ処理してそれをベクトル表現に圧縮する(訳註: これがデコーダの初期ベクトルとなる)。

Figure 8: A sequence-to-sequence model (Sutskever et al., 2014)

Figure 8: sequence-to-sequence モデル (Sutskever et al., 2014)

2016年、Googleは、モノリシックなフレーズベースの機械翻訳モデルを、ニューラル機械翻訳モデル(Wu et al., 2016)2に置き換え始めたと発表した。
Jeff Dean によると、これは、フレーズベースの500,000行の機械翻訳のコードをニューラルネットワークモデルの500行に入れ替えることを意味していた。

これにより、例えば、画像をもとにキャプションを生成したり(Vinyals et al,. 2015)3 (下図9参照)、表をもとに文章を生成したり(Lebret et al., 2016)4、ソースコードの差分からその説明文を生成したりするなど(Loyola et al., 2017)5、多くの応用が可能となっている。

Figure 9: Generating a caption based on an image (Vinyals et al., 2015)

Figure 9: 画像からキャプションを生成 (Vinyals et al., 2015)

sequence-to-sequence 学習は、出力がある構造を持つような、自然言語処理で一般的な構造推定タスクにも適用可能である。
ニューラルネットワークを用いることで、構文解析(Vinyals et al., 2015)6や固有表現抽出(Gillick et al., 2016)7をはじめとする様々なタスクにおいて、訓練データさえ十分に与えられれば直列化された形式の出力を直接生成できることが示された。

Figure 10: Linearizing a constituency parse tree (Vinyals et al., 2015)

Figure 10: 構文解析器の直列化 (Vinyals et al., 2015)

これらの新しいアーキテクチャは主に機械翻訳の研究において生まれたものであり、機械翻訳は sequence-to-sequence アーキテクチャのペトリ皿として機能している。
最近のモデルとしては、ディープLSTM (Wu et al., 2016)8、畳み込みエンコーダ (Kalchbrenner et al., 2016; Gehring et al., 2017)9 10、トランスフォーマー(Vaswani et al., 2017)11 (これは次のセクションで説明する)、およびLSTMとトランスフォーマーの組み合わせ(Chen et al., 2018)12などがある。

2015 - アテンション (Attention)

アテンション(Bahdanau et al., 2015) 13 は、ニューラル機械翻訳の中核となるイノベーションの1つであり、ニューラル機械翻訳を古典的なフレーズベースの機械翻訳システムよりも優れたものにする重要なアイディアである。
seaquence-to-sequence 学習のボトルネックは、入力シーケンスの内容全体を固定サイズのベクトル(訳註: LSTMなどの内部状態ベクトル)に圧縮する必要があることである。

Figure 11: Attention (Bahdanau et al., 2015)

Figure 11: アテンション (Bahdanau et al., 2015)

様々な種類のアテンションが提案されている(Luong et al., 2015)14
代表的な応用先として、構文解析(Vinyals et al., 2015)15、読解 (Hermann et al., 2015)16、そしてワンショット学習(Vinyals et al., 2016)17などがある。
また、入力データは系列データである必要すらなく、下図12に示した画像のキャプション生成 (Xu et al., 2015)18の場合のように、他の形式のデータであってもかまわない。

Figure 12: Visual attention in an image captioning model indicating what the model is attending to when generating the word “frisbee”. (Xu et al., 2015)

Figure 12: 画像の表題生成モデルにおいて、「フリスビー」という単語を生成する際にモデルが何を注目(訳註: attending)しているかの可視化。(Xu et al., 2015)

多層構造のセルフ・アテンションは、最先端のニューラル機械翻訳モデルである「トランスフォーマー」アーキテクチャ(Vaswani et al., 2017)19 のコアとなる機構である。

2015 - メモリベースネットワーク

アテンションとメモリの関係についての詳細は、この投稿 を参照されたい。
それらのメモリベスネットワークの例として、ニューラル・チューリングマシン(Graves et al., 2014)20、メモリ・ネットワーク(Weston et al., 2015)21 とEnd-to-end メモリ・ネットワーク(Sukhbaatar et al., 2015)22、動的メモリネットワーク (Kumar et al., 2015)23、可微分ニューラルコンピュータ (Graves et al., 2016)24、そして Reccurent Entity Network (Henaff et al., 2017)25 などが挙げられる。

例えば、end-to-end メモリ・ネットワークは、入力を複数回処理してメモリを更新することで、複数ステップの推定を可能にする。

2018 - 学習済み言語モデル

最近では、ニューラルネットワークを事前学習するために、 種々の教師あり学習タスクが用いられてきた(Conneau et al., 2017; McCann et al., 2017; Subramanian et al., 2018)26 27 28
学習済み言語モデルは2015年に初めて提案され(Dai & Le, 2015)29、つい最近になって様々な種類のタスクにおいて有用であることが示された。
言語モデル埋め込みは対象とするモデルの特徴量として用いることもできるし(Peters et al., 2018)30、対象のデータに対して言語モデルをファインチューニングすることもできる(Ramachandran et al., 2017; Howard & Ruder, 2018)31 32

Figure 13: Improvements with language model embeddings over the state-of-the-art (Peters et al., 2018)

Figure 13: 最先端手法に対する言語モデル埋め込みによる改善 (Peters et al., 2018)





CNN や LSTM を文字列に直接適用することで文字ベース表現を得る手法はかなり一般的になってきており、特に、形態学的特徴が豊富な言語や、形態学的な情報が重要となるタスク、未知の単語が多いタスクに用いられる。
筆者の知る限り、文字ベース表現が最初に使われたのは系列ラベリング(Lample et al., 2016; Plank et al., 2016)33 34である。
文字ベース表現により、固定の語彙を大量の計算コストで処理する必要性を緩和され、完全な文字ベースのニューラル機械翻訳(Ling et al., 2016; Lee et al., 2017)35 36などのアプリケーションが可能となった。


敵対的手法のアプローチは、モデルを検証し、その失敗理由を理解するためのツールにとどまらず、学習をよりロバストにする手法として加速度的に広まった(Jia & Liang, 2017) 37
(仮想)敵対的学習、すなわち 最悪ケース摂動法(Miyato et al., 2017; Yasunaga et al., 2018) 38 39と、domain-adversarial losses (Ganin et al., 2016; Kim et al., 2017) 40 41は、モデルをよりロバストにすることができる有用な正則化の一種である。
また、生成的敵対モデル (GAN) は、自然言語の生成においてはまだそこまで有効ではないが(Semeniuta et al., 2018) 42、分布をマッチする場合などにおいては有効である(Conneau et al., 2018)43


強化学習は、学習中におけるデータ選択(Fnag et al., 2017; Wu et al., 2018)44 45や、対話モデリング(Liu et al., 2018)46のような時間依存性を持つタスクに有用であることが示されている。
強化学習は、また、クロスエントロピーのような代替的な目的関数を最適化するのではなく、ROUGEBLEUなどといった最終目的となる微分不可能な指標を直接最適化する場合においても有効であることが、要約(Paulus et al., 2018; Celikyilmaz et al., 2018)47 48や機械翻訳 (Rnzato et al., 2016)49 などのタスクにおいて示されている。
同様に、逆強化学習は、visual storytelling(Wang et al., 2018)50のような、報酬関数が複雑すぎて特定することができない状況においても有効である。


1998年以降、FrameNet プロジェクトが開始され(Baker et al., 1998)51、今日でも活発に研究が進められている浅い意味解析の一種である意味役割ラベリングのタスクが導入された。
2000年代初頭、国際会議 Conference on Natural Language Learning (CoNLL)において発表された共通課題は、チャンキング (Tjong Kim Sang et al., 2000)52や固有表現抽出 (Tjong Kim Sang et al., 2003)53、係り受け解析 (Buchholz et al., 2006)54 などの、主要な自然言語処理タスクに影響を及ぼした。
今日でも、CoNLL の共通課題データセットの多くは、手法の評価を行う際の標準として用いられる。

2001年には、系列ラベリングで最も影響力のある手法の1つである条件付きランダム場 (CRF; Lafferty et al., 2001)55が紹介され、国際会議 ICML 2011で Test-of-time賞を受賞した。
固有表現認識(Lample et al., 2016) 56のようなラベルの相互依存性を伴う系列ラベリング問題に対して、CRF 層は最新手法のコアとして採用されている。

2002 年には、バイリンガル評価基準 (BLEU; Papineni et al., 2002)57 が提案されたことで機械翻訳システムのスケールアップが可能となり、BLEUは現在でも機械翻訳における標準的な評価基準として利用されている。
同年、構造化パーセプトロン(Collins, 2002)58 が提案され、構造認識における研究の基盤となった。
感情分析が提案された(Pang et al., 2002)59
これら3つの論文は、いずれも 国際会議NAACL 2018 の Test-of-time 賞を受賞した。

潜在ディリクレ配分(LDA; Blei et al., 2003)60が提案され、これは現在でもトピックモデリングの標準的な手法となっている。
2004年には、SVM よりも構造化データの創刊を捉えるのに適した、新奇な最大マージンモデルが提案された(Taskar et al., 2004a; 2004b)61 62

多言語コーパスであるOntoNotes (Hovy et al., 2006)63が発表された。
OntoNotes は、依存解析や今日参照解決などの様々なタスクの学習と評価に
2008年にMilne and Witten (2008)64 は、Wikipedia を使っていかに機械学習を強化するかについて解説した。
Wikipedia は、エンティティ間のリンクや曖昧さ回避、言語モデリング、知識ベース、その他様々なタスクのための

2009 年には、distant supervision (Mintz et al., 2009)65 という考え方が提案された。
Distant supervision はヒューリスティックや既存の知識ベースの情報を活用し、ノイズを含むパターンを生成し、これは大きなコーパスから自動的に例を抽出するのに使える。
Distant supervision は広範に使われ、関係抽出、情報抽出、感情分析などのタスクにおいて標準的な手法となった。

指針を提供してくれたDjaméSeddah、Daniel Khashabi、Shyam Upadhyay、Chris Dyer、Michael Rothに感謝します(Twitterのスレッドを参照)。


