#モチベーション
ディリクレ過程混合モデルによるクラスタリングを理解したい。
LDAとかでもディリクレ分布は使うし、今勉強するしかねえ
今回取り組む範囲
ディリクレ分布の理解
ディリクレ過程の理解
まずはこれらの表面をなぞる。
##ディリクレ分布
-
wiki
ディリクレ分布(ディリクレぶんぷ、英: Dirichlet distribution)は、連続型の確率分布である。ベータ分布を多変量に拡張して一般化した形をしており、そのため多変量ベータ分布とも呼ばれる。ディリクレ分布の確率密度関数は、同時に発生することのない $K$ 個の事象がそれぞれ$\alpha_{i}-1$回発生したときに、各事象の起こる確率が ${\displaystyle x_{i}}$である確率を与える(ただし、${\displaystyle \alpha_{i}}$は整数である必要はない)。つまり、試行の回数が無限大なら各事象の発生の相対頻度は ${\displaystyle x_{i}}$になるが、試行回数が有限だと、そこにずれが生じる。そのずれを表すモデルである。 -
wikiを要約
ベータ分布は二項分布の共役事前分布
ディリクレ分布は多項分布の共役事前分布
ディリクレ分布はベータ分布の一般化=多変量ベータ分布
"同時に発生することのない $K$ 個の事象がそれぞれ$\alpha_{i}-1$回発生したときに、各事象の起こる確率が ${\displaystyle x_{i}}$である確率を与える"のイメージ
とりあえずふんわりとだけど理解できた。
次はディリクレ過程
##ディリクレ過程(Dirichlet Process)
- そもそもディリクレ過程って何者?
基底測度と呼ばれる確率分布から離散分布を生成する確率過程。
イメージ図
#まとめ
- ディリクレ分布
- 多項分布の共役事前分布
- 多変量ベータ分布
- ディリクレ過程
- 離散分布を生成する確率過程
- 無限次元のディリクレ分布
今回はここまで、次は、クラスタリングに触れるとこまで書きたいけど、ノンパラメトリックベイズか続パタ読んでからになりそう
##参考文献
http://proc-cpuinfo.fixstars.com/author/takashi-osawa/