Posted at

Doc2Vec論文の概要(個人的メモ)

More than 3 years have passed since last update.

Distributed Representations of Sentences and Documentsの概要


Motivation


  • テキスト系の一般的な特徴量であるBoW形式では不十分な部分を克服したい

  • 不十分な部分とは具体的には(1)語の順序が失われること、(2)語の意味が無視されること、(3)特徴量のベクトル長が固定されてしまうこと

  • 教師なし学習によって、長さの異なる文章の可変長特徴ベクトルをパラメタ調整なしに作成


Contribution


  • paragraph vectorとword vectorsを組み合わせることによってMotivationで示したBoWの3つの弱点を克服した


Algorithms


Learning Vector Represintation of Words


  • 各単語の代表ベクトルを学習(Word2Vec)


Paragraph Vector: A distributed memory model


  • 文の中で次に出てくる単語の予測を行うことに相当する操作を、Paragraph Vector(PV-DM)とWord Vectorsを用いて行う

  • その際、paragraph vectorとword vectorsは平均化または結合される

  • paragraph vectorは現在の文脈の中で失われた情報を代表するものであり、paragraphのトピックを記憶しておく機能を持つ

  • 本過程はおおまかに2つのstepに分けることができる

  • (1)word vectors W, softmax weights U,b, 既知のparagraphの paragraph vectors Dのtraining、(2)新しいparagraphにおいてparagraph vector Dに新たなcolumnsを追加する推定stepである

  • (当該paragraph vectorの利点として、BoWだと文脈が考慮されず高次元になればなるほど情報のlostが顕著になるが、それが起こりにくい? <- 行間読み)


Paragraph Vector without word ordering: Distributed bag of words


  • windowからランダムに単語をサンプリングし、Paragraph Vector(PV-DBOW)をgivenとしてclassificationタスクを実行

  • 保持すべきパラメタを少なくすることによって、少メモリ化に成功

  • Skip-gram modelに似ている

  • 上のPV-DMはそれ自体で効果的だが、PV-DBOWと組合わせて使うことをおすすめする


Experiments

詳細割愛


  • Stanford TreebankとIMDB datasetの2つのデータを実験に使用

  • window sizeは8, 10で実施

  • PV-DM, PV-DBOWの次元は400

  • 既存手法に比べて分類精度が上がった