More than 5 years have passed since last update.

【青本】トピックモデルの自分用メモ

Posted at 2018-11-01

Chapter1

略

重要なこと
文書の集合$W=(w_1,w_2,...,w_D)$
単語vが出現する確率$\phi_v$
確率なので、$v:1toV sum(\phi_v)=1$

多重集合(bag)
→BOW(bag-of-words)表現
語彙が同じでも別のものだとする
→→ちょっと考えれば、単語には複数の意味を持つものがある

文書から単語の頻度より、単語分布を作るっていうモデル

これらの数学的なところ

こういう機械学習の基礎のあたりは、頻発して、対数尤度、ラグランジュ乗数法、積分は解析的に解けないっていうあたりが出てきたが、それ以前の話も含めて^_^

文書はトピック分布から生成される。単語分布はトピック毎に。

つまり、複数の意味を持つっていう単語の背景には、そのトピックも関わるっていうところ？

ネックは数学よりも擬似言語で書かれたアルゴリズムの方

ASAP