本記事では4回に渡り、筆者が親しみのある潜在変数モデル群を題材に、EMアルゴリズムと呼ばれる共通の計算手法を用いて各モデルを比較し、性質の違いをまとめます。それにより、モデル間の性質の違いを理解する助けとなることを目指します。
本記事の内容
第4回目は、総まとめとして、これまでの各モデルのQ関数と負担率の「はじめに」の表の性質をより詳細なものにします。
最後に、負担率の計算について少し深く考察し、それをもとに今回登場しなかった他の潜在変数モデルを紹介します。
※本記事は第1回目、第2回目、第3回目の続編です。
第1回目は、EMアルゴリズムと本記事で扱う潜在変数モデル群を説明してます。第2回目は、K-meansとGMMのQ関数と負担率を比較してます。第3回目は、PPCAとGTMのQ関数と負担率を比較してます。
注意:考察は独自の考えで分析しており、主観が含まれる部分もあります。本記事が参考にさせていただいている情報を参考にしながら整理することをお勧めいたします。
潜在変数モデル群の比較
これまでの内容を踏まえて、以下の表を作成しました。
モデル名称 | 潜在変数の値 | 学習タスク | モデルの特徴(Q関数) | モデルの特徴(負担率) |
---|---|---|---|---|
K-means | 離散 | クラスタリング | 分散推定なし。写像先の点から等距離円上にデータ点が生成。 | 潜在変数の値が決定的。GMMの負担率の極限に対応。 |
GMM | 離散 | クラスタリング | 分散推定あり。写像先の点から楕円上にデータ点が生成。 | 潜在変数の値が確率的。クラスタを平均とするガウス分布に比例。 |
PPCA | 連続 | モデリング | 分散推定あり、線形写像。写像先の点から等距離円上にデータ点が生成。 | 潜在変数の値が確率的。写像先の点を平均とするガウス分布に比例。 |
GTM | 連続 | モデリング | 分散推定あり、非線形写像。写像先の点から等距離円上にデータ点が生成。 | 潜在変数の値が確率的。写像先の点を平均とするガウス分布に比例。 |
表から潜在変数モデル群のQ関数と負担率の違いを把握できます。EMアルゴリズムという共通の近似計算を用いていても、計算結果に違いがあること、また確率モデルの極限であるK-meansと他のモデルの相違点があるか分かりますね!
負担率の考察
第1回目の記事で、確率モデルの形によらずQ関数は以下の形になることを説明しました。
Q(\theta, \theta^{(t)}) = \sum_{n=1}^{N} \int p(z_n \mid x_n, \theta^{(t)}) \log p(x_n, z_n \mid \theta) \, dz_n
このうち$p(z_n \mid x_n, \theta^{(t)})$を負担率と呼び、計算にはベイズの定理を利用しました。
p(z_n \mid x_n, \theta^{(t)})=\frac{p(x_n \mid z_n, \theta^{(t)})p(z_n)}{p(x_n \mid \theta^{(t)})}
この時$p(x_n \mid z_n, \theta^{(t)})$は写像先の点を中心とするガウス分布であり、$\exp(-||x_n-f(z_n)||^2)$に比例していました。
この点に着目すると、もし$x_n$が$f(z_n)$と近い時、$p(z_n \mid x_n, \theta^{(t)})$は特定の値付近に分布し、もし$x_n$が$f(z_n)$と遠い時、広く分布することが分かります。つまり観測変数の空間上での距離に応じて潜在変数の分布が変化すると分かります。
実は潜在変数の空間上での距離に応じて潜在変数の分布が変化するモデルもあります。SOM(Self-Organizing Map)、UVR(Unsupervised Kernel Regression)、GPLVMなどがそれにあたります。
これらのモデルの性質も理論的には面白い点がたくさんありますが、今回の主題であるEMアルゴリズムの潜在変数モデルからは外れるため、今回は紹介のみに留めます。
まとめ
最後まで読んでいただきありがとうございました。
これまでの潜在変数モデル群を記事をもとにQ関数と負担率の違いを表で示し、その際に負担率を少し深く考察しました。この考察により、SOMやUVRとGPLVMのような他の潜在変数モデルと違う点が伝わるようにしました。
知識至らずで曖昧な点があると思います。ご指摘やご質問などがございましたら、編集や回答いたします。コメントお待ちしております。