0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

論文読み. 4 Multimodal Word Distributions (ACL 2017)

Last updated at Posted at 2020-04-05

はじめに

Multimodal Word Distributionsという論文を読んだのでまとめていきます。

1. 対象とするトピック

1.1 キーワード

Word Embedding 論文

1.2 Abstract

Word embeddings provide point representations of words containing useful semantic information. We introduce multimodal word distributions formed from Gaussian mixtures, for multiple word meanings, entailment, and rich uncertainty information. To learn these distributions, we propose an energy-based max-margin objective. We show that the resulting approach captures uniquely expressive semantic information, and outperforms alternatives, such as word2vec skip-grams, and Gaussian embeddings, on benchmark datasets such as word similarity and entailment.

1.3 経緯

 前回の記事で紹介したように、ガウス分布によって単語を埋め込むという新しい手法が誕生しました。この手法は一定の効果を示しましたが、単一のガウス分布では表現力に限界があります。例えば、多義語は単一のガウス分布では埋め込めません。以下は論文内での例 (bank) です。

For example, one mode of the word ‘bank’ could overlap with distributions for words such as ‘finance’ and ‘money’, and another mode could overlap with the distributions for ‘river’ and ‘creek’.

 そこで、この論文では複数のガウス分布の線形和を用いて形成される混合ガウス分布へと埋め込む方法を拡張させようと試みています。なお、論文中では単一のガウス分布をunimodal distribution、混合ガウス分布をmultimodal distributionと呼称しています。以降では識別のために単一ガウス分布と混合ガウス分布という単語で両者を呼称します。

1.4 先行研究

 Luke Vilnis and Andrew McCallum. 2014. Word representations via gaussian embedding. CoRR abs/1412.6623.

2. 理論

2.1 モデル

 前述した通り、単語を空間上に混合ガウス分布として埋め込むことが基本方針です。以下では具体的な定義を示します。

2.2 Word Representation

 最初に単語を示す混合ガウス分布の式を示します。単語wの混合ガウス分布fは以下の式でmc示されます。
スクリーンショット 2020-04-05 15.35.24.png
スクリーンショット 2020-04-05 15.36.47.png

 平均や分散などの基本的なノーテーションはお馴染みですね。これらのパラメータの意味は先行研究で用いられている単一ガウス分布の場合と同様です。なお、混合ガウス分布での埋め込みと単一ガウス分布での埋め込みとの違いは下図の通りです。上が混合ガウス分布を用いた場合を図示しています。下が単一ガウス分布を用いた場合を図示しています。
スクリーンショット 2020-04-05 15.56.18.png
 rockのような多義語を単一ガウス分布で埋め込むと図のように分布の広がりが大きくなってしまうことがわかります。
 

2.3 Energy-based Max-Margin Objective

 先行研究と同様に、類似した単語の組みを入力とした時の出力値がそうでない単語の組みを入力とした時の出力値よりも大きくなるようなエネルギー関数を利用します。損失関数は単語wと類似した単語cおよび類似していない単語c'を引数に取ります。そしてエネルギー関数を用いて定義されます。
スクリーンショット 2020-04-05 16.11.25.png
なお、Eはエネルギー関数でmはマージンです。損失関数は先行研究と同様でmax-margin lossと呼ばれるものです。

2.4 Energy Function

 単語同士の類似度を測るために、単語を埋め込んだ分布同士の類似度を測り方を決定します。分布に含まれる分散の情報を活かすために、以下で示されるexpected likelihood kernelを提案し類似度の計算に利用しています。
 まず一般の関数での分布間の内積計算を確認します。Hilbert space L2において、分布間の内積は以下のように計算されます。
スクリーンショット 2020-04-05 16.22.11.png
 混合ガウス分布においては$f, g$およびエネルギー関数$E$の対数が以下のように計算されます。
スクリーンショット 2020-04-05 16.23.59.png

 $\xi_{i,j}$が単語$w_f$の$i$番目の意味と単語$w_g$の$j$番目の意味との類似度を示しています。なお、このexpected likelihood kernel以外にもmaximum cosine similarityminimum euclidean distanceといった類似度の指標が論文では提示されていました。

3. 実験

 いくつか実験が行われていました。次節以降で抜粋したものを紹介します。

3.1 Qualitative Evaluation

 論文のモチベーションにも繋がっている多義語についての定性的評価が行われています。結果は下図の通りです。上の表が混合ガウス分布を用いた結果です。下の表が単一ガウス分布を用いた結果です。coはcomponentの短縮です。上の表において、混合ガウス分布を分離した場合の構成要素を示します。
スクリーンショット 2020-04-05 16.50.52.png
 混合ガウス分布を用いた場合は、多義語において構成要素ごとに異なる意味を持つ単語の近傍に位置することがわかります。

3.2 Word Entailment

 多義語以外にも単語の含意関係について実験が行われています。具体的には、単語$w_1$ならば単語$w_2$であるという含意関係が成立するかしないかを識別する実験です。先行研究では非対称な類似度を測るために用いられていたKL divergenceやF1値を用いて単語間の含意関係についての定量的評価が行われています。なおこの論文ではKL divergenceは以下の式で定義されるminimum KL divergenceとして利用されています。
スクリーンショット 2020-04-05 17.25.34.png

 以下に実験結果を示します。
スクリーンショット 2020-04-05 17.05.12.png
 先行研究(Word to Gauss)よりも提案手法(Word to Gaussian Mixture)の方が優れていることがわかります。

KL divergenceについての補足

 KL divergenceは非対称な距離であり、今回の単語間の含意関係のように分布同士の関係が特定の方向性を持たない場合に有効です。例えば、単語$w_1$ならば$w_2$という関係が成り立つ場合でも逆は成立しません。後者は前者の意味全てを含みますが、全く同じ単語でない限り逆の関係はありえないからです。このように入力の順序等によって距離が変化して欲しい場合は距離の対称性は邪魔になります。そこで非対称な距離が必要となります。その一つがKL divergenceです。 

参考文献

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?