#Level4.機械学習講座(理論と実践)
##4-6.k平均法(k-means)
###4-6-1.k-平均法(k-means)とは
●教師なし学習
●クラスタリング手法である。
●与えられたデータを$k$個のクラスタに分類する。
【クラスタリング】
特徴の似ているもの同士をグループ化すること。
###4-6-2.k平均法(k-means)のアルゴリズム
①各クラスタ中心の初期値を設定する。
⇒$k$は事前に決めておく必要がある。
クラスタの中心はランダムに選択する。
②各データ点に対して、各クラスタ中心との距離を計算し、
最も距離が近いクラスタを割り当てる。
⇒中心から最も距離の近いクラスタを割り当てる。
そして、全てのデータ計算して、徐々に切り離されていく。
③各クラスタの平均ベクトル(中心)を計算する。
⇒各クラスタで中心を更新していく。
④収束するまで、②③の処理を繰り返す。
⇒グルーピングできるk-meansの流れである。
###4-6-3.k平均法(k-means)の初期値の決め方
●初期値の決め方が大事である。
●「k-means++」を使用すると、1つ目の中心から離れた位置で次の中心を選択する。
⇒ 少し時間がかかるが、結果は良くなる。
###4-6-5.考察
k-meansは、コードを追ってみても分かり易いし、そもそも手法として理解が容易です。
視覚化した際も、他の人に説明するにしても、直ぐに認識してもらえる。
計算量などがどのように増えていくのか、クラスタの数にどのくらい影響するのかなど、
今後、分析をする中で良く理解をしておこうと思います。