More than 5 years have passed since last update.

GRAPHSEQ2SEQ: GRAPH-SEQUENCE-TO-SEQUENCE FOR NEURAL MACHINE TRANSLATION

Last updated at 2018-11-04Posted at 2018-11-04

書誌情報

ICLR 2019 Under Open Review

概要

GraphSeq2Seq モデルを提案
- Graph2Seq(Graph state LSTM) を利用し，単語間の依存関係グラフ構造を encodeし, Seq2Seq モデルで翻訳する
- 先行研究では依存関係を単に追加特徴量として word embeddig に concat する形でSeq2Seqモデルに入力しており，グラフ構造情報が失われていた．
IWSLT 2014 German to English タスクにて従来SoTAを上回るBLUEスコア 30.66 を出した．
- 比較対象にTransformer等が入っていないのでどれくらい優れているかは比較が難しい
- ちなみに，MULTI-AGENT DUAL LEARNING では 35.44 pt を達成
- 単語間の依存関係グラフ情報を用いることで翻訳パフォーマンスが向上したという事実が重要か

Graph state LSTM について

Daniel Gildea, Zhiguo Wang, Yue Zhang, and Linfeng Song. A graph-to-sequence model for amrto-text
generation. In Proc. ACL, pp. 1616–1626, 2018.
GraphSeq2Seq では単語（ノード）と単語間の依存関係（エッジ）からなるグラフ情報を Graph state LSTM を用いて encode する

Gildea et al. (2018)から引用

各ノードとエッジはそれぞれノード表現 $x_i$, ノード隠れ状態 $h_i(t)$ エッジ表現 $e_l$ を持つ．ノード隠れ状態はハイパーパラメータとして定める初期値 $h_0$ からLSTM を用いて更新されていく
- ノード：図中の丸
- エッジ：図中の矢印
- 翻訳モデルにおいては $x_i$ : 単語Embedding, $e_l$ : 判定された単語間の依存関係 one hot ベクトルを用いる
n 番目のノード $x_n$のサブグラフ$g(n)$に対して, 下記を定義
- $x_n^{in}$ : サブグラフへの入力の表現式(3)
- $x_n^{out}$ : サブグラフからの出力の表現式(4)
- $h_n^{in}$ : サブグラフへ入力するノード群の前ステップで計算された隠れ状態重み付き和式(13)
- $h_n^{out}$ : サブグラフからの出力を受けるノード群の前ステップで計算された隠れ状態重み付き和式(14)

各ノードの隠れ状態を LSTM で計算

式(6) ~ (11) で定義されるLSTM式 (12) で各ノードの隠れ状態を計算する．Gildea et al. (2018) Fig2 のように $g^0 -> g^1 ... -> g^t$ とLSTMを用いてグラフの隠れ状態をアップデートしていく(各ステップにおいて全てのノードの隠れ状態を更新する)．
LSMTのステップを重ねるほど，グラフ内で各ノードの情報が伝達され，生成される各ノードの隠れ状態はグラフ全体の情報を考慮したものになる．

n番目のノードのステップｔにおける隠れ状態更新

入力：$x_n^{in}, x_n^{out}, h_n^{in}(t), h_n^{out}(t)$
- 各ノードの隠れ状態初期値　$h_n(0)$ はハイパーパラメーターを用いて初期化
出力：$h_n(t)$

Graph2Seq2Seq モデル

双方向Encoder で入力センテンス X のグラフ構造情報と単語情報を Encode し，Attention 付き Decoder で出力センテンス Y を生成する

入力センテンス X が与えられたときの処理手順

Sub-Graph Encoder で入力のセンテンスの単語情報，単語間の依存関係を Encode した graph representation $r_n$を取得
- 各単語 $x_n$ への入力ノード $x_i$ 出力ノード $x_o$ を含むサブグラフ $g_n$ を取得し，sub graph encoder (graph state LSTM) を用いて $g_n$ を encode した $h_n^{in}, h_n^{out}, h_n$ を取得
- 単語表現 $x_n$と，sub-graph state $h_n$, incoming representation $h_n^{in}$, outgoing representation $h_n^{out}$ を組み合わせて full graph representation $r_n$ を取得
graph representation $r_n$ を双方向sequence encoder へ入力
Attention メカニズムを用いた decoder で出力センテンスY を生成

sub graph encoder

センテンス内の単語遺贈構造（グラフ構造）をencodeしたベクトル $r_n$ を全てのノードに対して計算する

センテンスX 内の単語の依存構造グラフ G はパーサ Spacy を用いて取得

$h_n^{in}, h_n^{out}, h_n$ : graph state LSTM を用いて計算
$H_n$ : Highway network (Srivastava et al., 2015) 式(15)，を用いて計算した各ノードの初期表現 $x_n$ の情報を保持したベクトル

双方向Encoder & Attention 付き Decoder

従来の Attention 付き Seq2Seq モデルと同様

実験設定

タスク

IWSLT 2014 Germanto-English, English-to- German, IWSLT 2015 English-toVietnamese 翻訳タスクで評価

モデル詳細設定

sub graph encoder
- graph state LSTM のステップ数は 9 で固定
- 各ノードは最大５つの隣接ノードから情報を受けるとする
- graph state LSTM の隠れ状態次元数は 300
- ３層 Highway network を用いて $H_n$を計算
- edge label には 50 次元のベクトルを使用
sequence encoder and decoder
- sequence encoder には 1層双方向LSTMを使用
- decoder には 2層LSTMを使用
  - 隠れ状態の次元数は512
Word Embedding
- 200次元ベクトルを使用
- 事前学習した Word2Vec embedding を使用

実験結果(IWSLT 2014 English-to-German のみ)

従来のSoTA 翻訳モデルに比べて高い BLEUスコアを示した．
- Graph2Seq の情報を Encode した結果パフォーマンスが向上したという事実が重要
  - Transformer 等と比較していないのでこのモデル自体がどれくらい優れているのかは不明

Highway Layers の総数を変えることでモデルの精度は多少変化した
- 本モデルでは，単語Embedding の情報を伝える役割を担っており重要
式(13), 式(14) の各ノード隠れ状態の和を求める時に重み付けの有無によるパフォーマンスの違いを検証した結果，重みによって BLEUスコアが最大 1pt 程改善されていることがわかった

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up