まず
ただの備忘録に近く全然まとまってません(ごめんなさい)。これは大事と思ったポイントの羅列です。
機械学習については完全に生まれたてのひよこで、確率統計も高校レベル+$\alpha$で止まってる人なので、理解とか用語の誤用とかどしどしご指摘くだされば助かります。
私と同様にクラスタリングからおさえちゃおーとしてk-means法とかEM法のアルゴリズムを見て面くらって「なんでこれで収束するんじゃい」と思った人向け
目標(未達成)
階層および非階層クラスタリングの詰まりどころをおさえてクラスターマスターになれるようにする。
※まだ階層クラスタリングについては何も書けていない
EM法のポイントをものすごく乱暴にキャッチフレーズすると
変分法と下限を活用した非常に解析的なテクニック!!
なんでk-meansじゃ駄目なの、EM法の何がいいの
やっぱり区間推定ってのは大事で、平均しか見ないで点推定しちゃうk-means法より、この点はだいたい何%の確率でこのクラスターにいるでしょうって予言してくれるほうが安心できる。
例:平均年収だけ見てもよくわからんが、年収の分布にすると得られる情報量は段違いに大きいのと一緒
EM法のテクニックをものすごく乱暴にキャッチフレーズすると
混合ガウス分布の場合が典型例($\rm{log}\sum{}$の形になるため)だが、一般的には解析的に解くのが難しい対数尤度そのものではなく解析的な下限を求め、下限のほうを底上げしていく方法
EとMはそれぞれ何してるのか、何を繰り返しているのか
E法とM法は、それぞれ2変数関数の極値を求める際に$x$方向の極値を出してから$y$方向の極値を出すっていう2段階の探索に相当し、ただしE法が変数の微分ではなく汎関数の変分というところが味噌
謎の新しい確率qをわざわざサンドイッチすると何かいいことがあるのか
新しい確率測度$q$を間にはさむことで対数尤度を期待値化することによりイェンセンの不等式が使える状況に持ち込み、解析の難しい$\rm{log}\sum$が解析しやすい$\sum{}\rm{log}$の形になる
E法は要するにこういうことをしている
対数尤度と変分下限の差は事後分布の確率$p(Z|X)$と新しい確率$q(Z)$のカルバックライブラー情報量$KL(q||p)$、これを最小化する⇔パラメータ$\theta=(\pi, \mu, \Sigma{} : 混合ガウス分布の構成要素)$一定のもと$q$を動かして対数尤度を極大化することがE法で、このプロセスは$X$と$\theta$(毎回M法で更新される)から事後分布を更新する
つまり、M法で更新した新しい$\theta$を使って、データを観測した後に、各点が属していたと思われるクラスターの(事後)分布を更新する
なんかk-means法のくだりとだいぶ違う?
そんなことはない、むしろパラレル。
k-meansの、新しい重心$\mu$(M法に相当)を使って歪み尺度$r_{nk}$を更新する工程(E法に相当)も、あまくだりに$\rm{arg,min}$が出てくるとなんじゃこりゃって感じになるけど、あれも損失関数を$r_{nk}$で偏微分すると出てくるので、汎関数の変分と全く同様の工程。
M法は要するにこういうことをしている
こっちのがE法よりシンプルでわかりやすい。
事後分布を使って変分下限を極大化するパラメータ$\theta$を最尤法で求める。こうすることで下限は底上げされ、結果的に同じパラメータでつくられている対数尤度も大きくなるって寸法
k-meansで重心$\mu$を計算するプロセスも、損失関数を$\mu$で偏微分すると自然に重心が出てくるので、同様の考え方。
k-means法の弱点はEM法で完璧に克服された感じ?
k-meansでのクラスタリングだろうがEM法を使った混合ガウス分布だろうがクラスターの数$k$を外から与えてあげなくちゃいけないという弱点は変わらないので、$k$の合理的な決め方、何らかの必然性なり最適化といえる$k$の決め方については別途検討する必要がある。
超絶参考にさせていただいた記事
1. EMアルゴリズム徹底解説 @ Kenmatsu4
2. Bishop本の 9. Mixture Models and EM の章