Chapter1
略
Chapter2 ユニグラムモデル
重要なこと
文書の集合$W=(w_1,w_2,...,w_D)$
単語vが出現する確率$\phi_v$
確率なので、$v:1toV sum(\phi_v)=1$
文書表現
多重集合(bag)
→BOW(bag-of-words)表現
語彙が同じでも別のものだとする
→→ちょっと考えれば、単語には複数の意味を持つものがある
ユニグラムモデル
文書から単語の頻度より、単語分布を作るっていうモデル
最尤、MAP、ベイズ推定
これらの数学的なところ
こういう機械学習の基礎のあたりは、頻発して、対数尤度、ラグランジュ乗数法、積分は解析的に解けないっていうあたりが出てきたが、それ以前の話も含めて^_^
Chapter3 混合ユニグラムモデル
混合ユニグラムモデル
文書はトピック分布から生成される。単語分布はトピック毎に。
つまり、複数の意味を持つっていう単語の背景には、そのトピックも関わるっていうところ?
EMアルゴ、変分ベイズ、ギブスサンプリング
ネックは数学よりも擬似言語で書かれたアルゴリズムの方
Chapter4 トピックモデル
ASAP