情報
- Distributed Representations of Sentences and Documents
- この記事の画像は上記論文からの転載。
簡単にまとめると
- doc2vecと呼ばれている手法を提案している(筆者達はParagraph vectorと呼んでいるが)。
- 現在、doc2vecはgensimにも実装されており簡単に使うことができる。
- doc2vecは名前の通りドキュメントのembeddingを得る手法で、word2vecのアルゴリズムを応用している
- アルゴリズムをword2vecとほぼ同じ。inputに常にdocumentのembeddingを入れて単語を予測するようなモデルにしている。
- 上記はword2vecのような単語のembeddingを求めるアルゴリズム
- the, cat, satを入力とし、onを予測するようなモデルを作ることによりembeddingを計算している。
- このアイデアを文書に適用したのが下記の図
- the, cat, satの単語のembedding以外にparagraph idのembeddingをインプットに追加している。