More than 5 years have passed since last update.

【機械学習】SOM（自己組織化マップ）を理解するための周辺知識を書き散らかしていく。

Last updated at 2018-05-03Posted at 2018-05-03

周辺知識を書き散らかしているので、SOM自体については別の記事にします。
ついでに各手法のメリット、デメリットも。画像はいつか作ります。。。

クラスタリングとは

教師なし学習手法 
変数がたくさんある（多変量）サンプルデータが大量にあり、ぱっと見ではデータにどのような特徴があるかわからない時に、クラスタリングするとなんとなく分類することができる。
手法によって異なるが、クラスタリングはなんらかの主観や視点に基づいているため、客観的な証拠にはなり得ないことが多い。=>データの要約、可視化などに使える。

とりあえず主成分分析してみることが多い。（後述）

次元削減とは、多次元からなる情報を、その意味を保ったまま、それより少ない次元の情報に落とし込むこと。
あまりに次元の数が多くなってくると、人間の直感では把握しきれない（というか現実世界は三次元）。そこで問題になるのが、 多次元空間では距離の差がつきにくくなるという性質。
この問題を解決するためには、とても大きい次元だった情報を、より少ない次元の情報に集約する手法が用いられる。主成分分析(Principal Component Analysis; PCA) を使えば、大量の軸の情報を合成して、なるべく多くの情報を維持したまま10個や20個の指定した軸に再編することができる。このプロセスを 次元削減(dimension reduction) と呼ぶ。

データを可視化するなら、人間にも見えるように二次元or三次元まで次元削減を実行する。
データを圧縮するなら、削減数のチェックを踏まえつつ、次元削減を行う。

【メリット】: ２次元か３次元に落とし込めば、視覚的にわかりやすく情報を提示することができる; 計算で全てをこなすので、主観が少なく普遍性が強い。
【デメリット】: 2次元に落とすと情報が削減されすぎてやばい（要出典or検証）; 斜めに分散しているデータに弱い。星座で考えるとわかりやすいが、人間の目では隣り合って見えても、やばいぐらい奥行きが違う星なんていくらでもある。

=> あくまで「そういった傾向がある」程度の精度に落ちてしまうため、厳密な情報とは言えなくなる

座標上にバラバラに散らばった点を、近い者同士でまとめる方法
とりあえず適当にグループ分け（クラスタ決め）=>そのグループの中心を求める=>さっきのグループ分けは適当だっ他ので、一番近いグループの中心に基づいて再度グループし直し=>グループが固定されるまで繰り返し
クラスタリングして、それをクラスタリングに用いる。その座標位置で次元圧縮することができるので、直接は関係ないが次元圧縮法。
k-means++というのもあって、(k-meansだとランダムに重心を決めていたのに対し)こちらはデータ点からランダムに一つ重心を決める手法。k-meansは初期の重心を完全にランダムに設定しているため、重心同士が近かった場合にうまくクラスタリングすることができない。++の方は重み付き確率分布を用いることにより、重心の初期値依存を解決している。

【メリット】: アルゴリズムがシンプルなので、何をやっているのかわかりやすい。
【デメリット】: クラスターの個数(分割数)を指定しなければならない; 重心との二乗距離を評価しているので、仮にデータに外れ値が混ざりこんでいた場合、そのデータの損失を低くするために重心が極端な値をとってしまう。; 重心の初期値がランダムだったり、クラスタの個数を人が決めるので、偏りが出る。再現性がない。

計量多次元尺度法: 距離データそのものを低次元に配置する方法
非計量多次元尺度法: 順序尺度のデータの類似度、あるいは距離に変換可能な親近性データを低次元に配置する方法。要するになんらかの比率が保たれているデータ同士を距離に変換して考える方法？

ここ、はてなばっかですいません。調べ直します。 https://www1.doshisha.ac.jp/~mjin/R/Chap_27/27.html

次はSOMについても書きます