書誌情報
ICLR 2019 Under Open Review
概要
-
GraphSeq2Seq モデルを提案
- Graph2Seq(Graph state LSTM) を利用し,単語間の依存関係グラフ構造を encodeし, Seq2Seq モデルで翻訳する
- 先行研究では依存関係を単に追加特徴量 として word embeddig に concat する形でSeq2Seqモデルに入力しており,グラフ構造情報が失われていた.
- IWSLT 2014 German to English タスクにて従来SoTAを上回るBLUEスコア 30.66 を出した.
- 比較対象にTransformer等が入っていないのでどれくらい優れているかは比較が難しい
- ちなみに,MULTI-AGENT DUAL LEARNING では 35.44 pt を達成
- 単語間の依存関係グラフ情報を用いることで翻訳パフォーマンスが向上した という事実が重要か
Graph state LSTM について
- Daniel Gildea, Zhiguo Wang, Yue Zhang, and Linfeng Song. A graph-to-sequence model for amrto-text
generation. In Proc. ACL, pp. 1616–1626, 2018. - GraphSeq2Seq では 単語(ノード)と単語間の依存関係(エッジ)からなるグラフ情報を Graph state LSTM を用いて encode する
Gildea et al. (2018)から引用
-
各ノードとエッジはそれぞれノード表現 $x_i$, ノード隠れ状態 $h_i(t)$ エッジ表現 $e_l$ を持つ.ノード隠れ状態はハイパーパラメータとして定める初期値 $h_0$ からLSTM を用いて更新されていく
- ノード:図中の丸
- エッジ:図中の矢印
- 翻訳モデルにおいては $x_i$ : 単語Embedding, $e_l$ : 判定された単語間の依存関係 one hot ベクトル を用いる
-
n 番目のノード $x_n$のサブグラフ$g(n)$に対して, 下記を定義
各ノードの隠れ状態を LSTM で計算
式(6) ~ (11) で定義されるLSTM式 (12) で各ノードの隠れ状態を計算する.Gildea et al. (2018) Fig2 のように $g^0 -> g^1 ... -> g^t$ とLSTMを用いてグラフの隠れ状態をアップデートしていく(各ステップにおいて全てのノードの隠れ状態を更新する).
LSMTのステップを重ねるほど,グラフ内で各ノードの情報が伝達され,生成される各ノードの隠れ状態はグラフ全体の情報を考慮したものになる.
n番目のノードのステップtにおける隠れ状態更新
- 入力:$x_n^{in}, x_n^{out}, h_n^{in}(t), h_n^{out}(t)$
- 各ノードの隠れ状態初期値 $h_n(0)$ はハイパーパラメーターを用いて初期化
- 出力:$h_n(t)$
Graph2Seq2Seq モデル
入力センテンス X が与えられたときの処理手順
-
Sub-Graph Encoder で入力のセンテンスの単語情報,単語間の依存関係を Encode した graph representation $r_n$を取得
- 各単語 $x_n$ への入力ノード $x_i$ 出力ノード $x_o$ を含むサブグラフ $g_n$ を取得し,sub graph encoder (graph state LSTM) を用いて $g_n$ を encode した $h_n^{in}, h_n^{out}, h_n$ を取得
- 単語表現 $x_n$と,sub-graph state $h_n$, incoming representation $h_n^{in}$, outgoing representation $h_n^{out}$ を組み合わせて full graph representation $r_n$ を取得
-
graph representation $r_n$ を双方向sequence encoder へ入力
-
Attention メカニズムを用いた decoder で出力センテンスY を生成
sub graph encoder
センテンス内の単語遺贈構造(グラフ構造)をencodeしたベクトル $r_n$ を全てのノードに対して計算する
- センテンスX 内の単語の依存構造グラフ G はパーサ Spacy を用いて取得
-
$h_n^{in}, h_n^{out}, h_n$ : graph state LSTM を用いて計算
-
$H_n$ : Highway network (Srivastava et al., 2015) 式(15),を用いて計算した各ノードの初期表現 $x_n$ の情報を保持したベクトル
双方向Encoder & Attention 付き Decoder
実験設定
タスク
- IWSLT 2014 Germanto-English, English-to- German, IWSLT 2015 English-toVietnamese 翻訳タスクで評価
モデル詳細設定
-
sub graph encoder
- graph state LSTM のステップ数は 9 で固定
- 各ノードは最大5つの隣接ノードから情報を受けるとする
- graph state LSTM の隠れ状態次元数は 300
- 3層 Highway network を用いて $H_n$を計算
- edge label には 50 次元のベクトルを使用
-
sequence encoder and decoder
- sequence encoder には 1層双方向LSTMを使用
- decoder には 2層LSTMを使用
- 隠れ状態の次元数は512
-
Word Embedding
- 200次元ベクトルを使用
- 事前学習した Word2Vec embedding を使用
実験結果(IWSLT 2014 English-to-German のみ)
- 従来のSoTA 翻訳モデルに比べて高い BLEUスコアを示した.
-
Graph2Seq の情報を Encode した結果パフォーマンスが向上した という事実が重要
- Transformer 等と比較していないのでこのモデル自体がどれくらい優れているのかは不明
-
Graph2Seq の情報を Encode した結果パフォーマンスが向上した という事実が重要
-
Highway Layers の総数を変えることでモデルの精度は多少変化した
-
式(13), 式(14) の各ノード隠れ状態の和を求める時に重み付けの有無によるパフォーマンスの違いを検証した結果,重みによって BLEUスコアが最大 1pt 程改善されていることがわかった