Help us understand the problem. What is going on with this article?

Doc2Vec論文の概要(個人的メモ)

More than 5 years have passed since last update.

Distributed Representations of Sentences and Documentsの概要

Motivation

  • テキスト系の一般的な特徴量であるBoW形式では不十分な部分を克服したい
  • 不十分な部分とは具体的には(1)語の順序が失われること、(2)語の意味が無視されること、(3)特徴量のベクトル長が固定されてしまうこと
  • 教師なし学習によって、長さの異なる文章の可変長特徴ベクトルをパラメタ調整なしに作成

Contribution

  • paragraph vectorとword vectorsを組み合わせることによってMotivationで示したBoWの3つの弱点を克服した

Algorithms

Learning Vector Represintation of Words

  • 各単語の代表ベクトルを学習(Word2Vec)

Paragraph Vector: A distributed memory model

  • 文の中で次に出てくる単語の予測を行うことに相当する操作を、Paragraph Vector(PV-DM)とWord Vectorsを用いて行う
  • その際、paragraph vectorとword vectorsは平均化または結合される
  • paragraph vectorは現在の文脈の中で失われた情報を代表するものであり、paragraphのトピックを記憶しておく機能を持つ
  • 本過程はおおまかに2つのstepに分けることができる
  • (1)word vectors W, softmax weights U,b, 既知のparagraphの paragraph vectors Dのtraining、(2)新しいparagraphにおいてparagraph vector Dに新たなcolumnsを追加する推定stepである
  • (当該paragraph vectorの利点として、BoWだと文脈が考慮されず高次元になればなるほど情報のlostが顕著になるが、それが起こりにくい? <- 行間読み)

Paragraph Vector without word ordering: Distributed bag of words

  • windowからランダムに単語をサンプリングし、Paragraph Vector(PV-DBOW)をgivenとしてclassificationタスクを実行
  • 保持すべきパラメタを少なくすることによって、少メモリ化に成功
  • Skip-gram modelに似ている
  • 上のPV-DMはそれ自体で効果的だが、PV-DBOWと組合わせて使うことをおすすめする

Experiments

詳細割愛

  • Stanford TreebankとIMDB datasetの2つのデータを実験に使用
  • window sizeは8, 10で実施
  • PV-DM, PV-DBOWの次元は400
  • 既存手法に比べて分類精度が上がった
shima_x
分析とか雑用とかやってます
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした