More than 5 years have passed since last update.

[論文メモ] A Simple but Tough-to-Beat Baseline for Sentence Embeddings

Posted at 2018-11-17

"Inductive Representation Learning on Large Graphs"の数値実験で前処理として使われていたので、興味をもち読んだ。

情報

この論文では、とてもシンプルなsentence embeddingの方法を提案している。
その方法は、単語のembeddingの加重平均からそのベクトルのfirst principal componentへのプロジェクションを引く。
ここで、単語$w$ のウエイトは $a / (a + p(w))$ と定義する
- $a$: パラメータ
- $p(w)$: 推計されたword frequency
この方法をsmooth inverse frequency(SIF)と呼ぶ。
SIFは様々なタスクでunweighted averageだけでなく、RNNやLSTMを含む洗練された教師ありの手法よりもパフォーマンスが高い。
この手法はdomain adaptionにより適している。
SIFの加重平均はTF-IDFと似ているが、documentではなくsentenceを対象にしているので、同じsentenceに重要な単語が何回も出現するとは考えにくい。
先行研究(Arora et al., 2016)の方法を修正して理論的正当性を提供する。

word embeddingはneural network modelの内部表現として得られる
または、共起統計のlow rank近似から得られる。
これら2つの方法は密に関連していることが知られている。
この論文は、(Arora et al., 2016)と直接的に関連している。その論文では文書中の単語を生成するrandom walk modelを提案している。

$$\text{Prob}(w \text{ emitted at time } t | c_t) \propto \exp(c_t \cdot v_w)$$

この論文で提案する手法では、前述した手法を改善する。
sentence $s$の1文字が取り除かれたとしても$c_t$は大きく変化しないと仮定し、$c_t$ではなく、$s$のdiscourse vector $c_s$を使う。
log linear modelに2つのsmoothing termを追加する。
1つ目は$\alpha p(w)$。$p(w)$は全コーパス内のユニグラムの確率であり、$\alpha$はスカラー値のパラメータである。
この項により、$c_s$との内積が小さい単語も生成される。
2つ目は共通のdiscourse vector $c_0$を加える。
この項により、syntaxに関連する要素を加えることができる。
結果、生成確率は次のようになる。

$$\text{Prob}(w \text{ emitted at time } t | c_t) = \alpha p(w) + (1 - \alpha) \frac{\exp(c_s \cdot v_w)}{Z_{\tilde{c}_s}}$$

$v_w$が一様に分散していると仮定する。つまり、$Z_c$は$c$に関係なく一定となる。
このとき尤度は次のようになる。
$p(s|c_s) = \prod_{w \in s} p(w | c_s) = \prod_{w \in s} (\alpha p(w) + (1 - \alpha) \frac{\exp(v_w \cdot \tilde{c}_s)}{Z})$
$f_w(c) = \log (\alpha p(w) + (1 - \alpha) \frac{\exp(v_w \cdot c)}{Z})$とすると
$\nabla f_w(c) = \frac{1}{\alpha p(w) + (1 - \alpha) \exp(v_w \cdot c) / Z} \frac{1 - \alpha}{Z} \exp(v_w \cdot c) v_w$
0の周りで1次までのテイラー展開をすると、

$$f_w(c) \approx f_w(0) + \nabla f_w(0)^T c = \text{constant} + \frac{(1- \alpha) / (\alpha Z)}{p(w) + (1 - \alpha) / (\alpha Z)} v_w \cdot c$$

$$\arg\max\sum_{w \in s} f_w(\tilde{c}_s)$$

$$ \propto \sum_{w \in s} \frac{\alpha}{p(w) + \alpha} v_w$$