はじめに
埋め込み (Embedding)が出てくるたびににこいつなんだっけ??となるので、ここでしっかりとまとめておく。
埋め込み(Embedding)とは
主に自然言語分野で使われ、各単語の関係性を定量化させるために単語を固定長な実数値のベクトルで表現したものを埋め込み表現と呼ぶ。意味が近い単語同士は、ベクトル空間上で近い位置に配置される。
埋め込み手法
各単語をベクトルに落とし込む手法として代表的なのがword2vecやGloVeだ。
word2evecはGoogleのMikolovらによって提案された。その学習モデルとしてCBOWとSkip-gramがある。
Efficient Estimation of Word Representations in Vector Space
GloVeはスタンフォード大学のPenningtonらによって提案された。word2vecが局所的な文脈情報を利用するのに対し、GloVeは大域的な単語の共起回数(共起とは、ある言葉と他の言葉が同時に文書の中で出現すること)を活用する。これによりword2vecよりも高精度を示した。
GloVe: Global Vectors for Word Representation