k-means法とは
機械学習(教師なし学習)の 階層なしクラスタリング手法の1つ.元のデータより,k個のクラスタ (グループ構造) に見出してまとめる手法.クラスタ分析ともいう.k-NN法(教師あり学習)とは別.
- データ全体のなかで,ランダムにクラスタの重心の代わりとなる点をk個生成
- 1で生成したk個の点それぞれから近いデータを求め,クラスタを作成.
- 各クラスタに属する各データの距離を求め,重心を求め直し,各データを一番近いクラスタ(重心)へ振り分け直す
- 2と3を変化がなくなるまで繰り返す.
各クラスタがどういうものなのかを解釈するのは人間です.教師なし学習 とは,一見散乱しているように見えるデータの特徴を掴むために行われ,散乱しているように見えるデータの規則や構造などを解釈する手助けとなります.
見るべき解説動画
ヨビノリさんの解説なのに数式を使っていない動画
k-means++についても解説
数式を交えた解説動画
ハンズオンもあり
ハンズオンによる説明