More than 3 years have passed since last update.

クラスタリングについてのメモ

Last updated at 2021-05-18Posted at 2021-05-18

クラスタリング

距離に着目したクラスタリング
デンドログラムを書いて自分でどのようなクラスターにするかを決める時に使う

データセットを用意する
データを正規化する MinMaxScaler

linkage 手法：ward,single最短距離法,complete再長距離法,centroid重心法

クラスタ間距離の計算　ward法
計算量は多、分類感度が良い

良いデンドログラム　異なるクラスタ間の距離は長く、同クラスタの点同士の距離は短い
悪いデンドログラム　鎖状になっている

seabornのペアプロットでクラスタ化の関係性を調べる
元のデータに ‘cluster’という列を追加する
seabornのペアプロットでデータをクラスタごとにプロットしてさらにクラスタ間の関係を探っていく
clusterごとのデータの統計量を調べる
Query メソッドで各クラスターのデータを取得し、そこに対してdescribeで統計量を調べる
エルボー図を使用する横軸にクラスタ数、縦軸に損失関数をプロットして下げ止まるところをクラスタ数として採用する
シルエットプロットを行う
凝集度、乖離度から、シルエット係数を算出
可視化
凸状のクラスターを作らない手法に関しては適切な評価が出来ない場合がある
from silhouette import silhouette_visuallizer

距離に着目したクラスタリング
事前にクラスター数Kを決めておいてクラスタ間の距離の値を最小化するようなクラスタリングをする

①クラスタ数Kを決める

②適当にデータにクラスタを設定する
③クラスタごとに重心(平均値)を求める
④データのクラスタを求めた重心に基づいて振りなおす

②～④をイテレーション数繰り返す

密度に着目したクラスタリング
Core点から到達可能な点を同じクラスタだとみなすクラスタリングの手法

k-dist graph