#はじめに
階層的クラスタリングを行うときに迷うのが、どの距離と方法を使うのがよいのかという点です。正解の用意されていないクラスタリングでは、特にです。
今回は、距離と方法ごとにコーフェン相関係数を計算して、クラスタリングの妥当性を調べてみます。この値が1に近いほど良いとされています。(詳しくはこちら)
#データの準備
今回は、irisのデータセットを使いました。
# irisのデータセットを得る。
from sklearn import datasets
dataset = datasets.load_iris()
dataset_data = dataset.data
dataset_target = dataset.target
target_names = dataset.target_names
dataset_labels = target_names[dataset_target]
# データの標準化を行う。
from sklearn.preprocessing import scale
data = scale(dataset_data)
コーフェン相関係数の計算
まず、クラスタリングで使いそうな距離や方法をリストアップします。データの形に合うものをいくつか用意します。
METORICS = ['euclidean', 'minkowski', 'cityblock', 'seuclidean',
'sqeuclidean', 'cosine', 'correlation', 'hamming',
'jaccard', 'chebyshev', 'canberra', 'braycurtis',
'mahalanobis']
METHODS = ['single', 'complete', 'average', 'weighted',
'centroid', 'median', 'ward']
# minkowski距離に使うノルム。デフォルトだと2で、ユークリッド距離となるので、とりあえず3。
P_NORM = 3
コーフェン相関係数の計算にはscipy
のcophenet
を使いました。(詳しくはこちら)
# 距離と方法を変えてコーフェン相関係数(CPCC)を計算する。
import itertools
from scipy.spatial.distance import pdist
from scipy.cluster.hierarchy import linkage, cophenet
result = []
for metric, method in itertools.product(METORICS, METHODS):
distance_matrix = pdist(X=data, metric=metric, p=P_NORM)
linkage_matrix = linkage(y=distance_matrix, method=method)
cpcc, _ = cophenet(linkage_matrix, distance_matrix)
result.append([metric, method, cpcc])
データ処理のために、pandas
のDataframe
に計算結果を入れます。コーフェン相関係数が最大となった距離と方法を得ます。
import pandas as pd
cpcc_df = pd.DataFrame(result, columns=['metric', 'method', 'CPCC'])
# コーフェン相関係数が最大である距離と方法を得る
best_metoric = cpcc_df.loc[cpcc_df['CPCC'].idxmax(), 'metric']
best_method = cpcc_df.loc[cpcc_df['CPCC'].idxmax(), 'method']
print ("距離:{0}, 方法:{1} でコーフェン相関係数が最大。".format(best_metoric,best_method))
実行結果は、以下のとおり。
距離:correlation, 方法:average でコーフェン相関係数が最大。
これだけではよくわからないので、seaborn
のheatmap
を使って、全体を見てみました。
# DataFrameを整形。
cpcc_df = cpcc_df.set_index(keys=['metric', 'method']).unstack()
cpcc_df.columns = cpcc_df.columns.droplevel()
# heatmapで表示。
import matplotlib.pyplot as plt
import seaborn as sns
fig, ax = plt.subplots(figsize=(8.5, 8))
ax = sns.heatmap(data=cpcc_df, annot=True)
fig.show()
heatmap
を見てみると、方法よりも距離の方がコーフェン相関係数に影響している傾向があります。この傾向は、クラスタリングするデータによって変わってくるかもしれません。
#デンドログラムの作図
計算結果から得たベストな距離と方法でデンドログラムを描いて完成です。
# コーフェン相関係数が最大である距離と方法でデンドログラムを描く。
from scipy.cluster.hierarchy import linkage, dendrogram
best_linkage = linkage(y=data, metric=best_metoric, method=best_method)
fig, ax = plt.subplots(figsize=(5,13))
ax = dendrogram(Z=best_linkage,
orientation='right',
labels=dataset_labels)
fig.show()
#最後に
今回計算したコーフェン相関係数も、これだけで完璧なクラスタリングができるわけではなく、指標の一つでしかありません。複数の指標を使ったクラスタリングを目指して勉強していきたいと思います。最後までお付き合いいただき、ありがとうございました。