はじめに
こんにちは!
僕は研究を行いながら、長期インターンでデータサイエンティストとして働く大学院生です!
学部時代から長期インターンを始め、現在まで4社経験してきました。
この経験から、プログラミングの学習を始めたばかりの人や、長期インターンを行う勇気が出ない人に、学習サポートやデータ分析の実績作り支援、さらにはKaggle人材マッチングサービスなどを行わせてもらっています!
僕自身、プログラミングの習得や長期インターン探しに苦労したので、その経験をお伝えすることで、より多くの人が挫折せずデータサイエンティストになるまで成長して欲しいです!
以下でサポートを行なっているのでご興味ある方はご連絡ください!学生・社会人問わず専攻も問わずサポートいたします!
X(Twitter)
ホームページ
今回は、クラスタリング手法、特にKMeans法について詳しく解説します!
クラスタリングとは
データサイエンスの世界では、データから有益な情報を引き出すために様々な手法が用いられます。その中でも、クラスタリングはデータを自然なグループに分割し、データの構造やパターンを理解するのに非常に役立ちます。
クラスタリングとは、教師なし学習手法の一つで、似た特徴を持つデータポイントをグループにまとめるプロセスです。これにより、データセット内の自然な構造を見つけ出すことができます。クラスタリングには大きく分けて、階層クラスタリングと非階層クラスタリングの二種類があります。
階層クラスタリング
階層クラスタリングは、その柔軟性と詳細な階層構造を提供する能力により、非階層クラスタリングと比較していくつかの重要なメリットを持ちます。最大の利点の一つは、クラスタの数を事前に決定する必要がないことです。これにより、データセットをさまざまな粒度で分析することが可能になり、より深い洞察を得ることができます。また、生成される階層的なクラスタ構造は、データの自然なグルーピングと関係性を視覚的に理解しやすくします。
階層クラスタリングには主に二つのタイプがあります。凝集型と分割型ですが、ここでは凝集型クラスタリングで使用される主要な統合手法に焦点を当てます。
ウォード法
ウォード法は、クラスタ内の分散の増加を最小限に抑えることを目的としています。この方法では、各ステップでクラスタ間の統合が行われる際に、クラスタ内の分散の増加量が最小となるようにクラスタを選択します。ウォード法は、非常に均一なサイズのクラスタを生成する傾向があります。
数式でウォード法を表すと、クラスタ$C_i$と$C_j$のの統合による分散の増加は次のように計算されます。
\Delta \mathrm{Var}(C_i, C_j) = \frac{|C_i| \cdot |C_j|}{|C_i| + |C_j|} \cdot \|\mu_i - \mu_j\|^2
ここで、$||u_i-u_j||^2$はクラスタ$C_iとC_j$の中心間のユークリッド距離の二乗を表します。
重心法
重心法では、クラスタの重心間のユークリッド距離に基づいてクラスタを統合します。数式では、クラスタ
$C_iとC_j$の重心間の距離は以下で表されます。
d(C_i, C_j) = \|\mu_i - \mu_j\|
ここで、$u_i$と$u_j$はそれぞれクラスタ$C_iとC_j$の重心を表します。
最短距離法
最短距離法では、クラスタ間で最も近いデータポイントのペアを基にクラスタを統合します。この方法は次の式で表されます。
d(C_i, C_j) = \min(\|x - y\|)
ここで、$x$はクラスタ$C_i$に、$y$はクラスタ$C_j$に属する任意のデータポイントです。
群平均法
群平均法では、クラスタ間の全データポイント間の距離の平均を使用してクラスタを統合します。数式で表すと、以下のようになります。
d(C_i, C_j) = \frac{1}{|C_i| \cdot |C_j|} \sum_{x \in C_i} \sum_{y \in C_j} \|x - y\|
ここで、$||x-y||$はデータポイント$x$と$y$間のユークリッド距離を表します。
これらの統合手法を利用することで、階層クラスタリングはデータセット内の自然なグループを効果的に識別し、非階層クラスタリングでは得られない洞察を得られます。階層クラスタリングは、データの探索的分析に特に有用であり、データの階層的な構造を明らかにすることで、より深い理解に繋がります。
非階層クラスタリング
非階層クラスタリングは、データセットを予め指定されたクラスタ数に分割する手法です。非階層クラスタリングのメリットは、計算効率が高い、直感的な結果を得ることができる、スケーラビリティが優れているなどが挙げられます。このセクションでは、代表的な手法であるKMeansと混合正規分布モデル(Gaussian Mixture Models、GMM)について解説します。
KMeans法
KMeansは、指定されたクラスタ数$k$に基づいてデータセットを$k$個のグループに分割する、非階層クラスタリングの一種です。この方法の目的は、クラスタ内のデータポイントとクラスタ中心点(セントロイド)との距離の総和を最小化することにより、データポイントをクラスタに割り当てることです。
後程アルゴリズムは丁寧に解説する。
混合正規分布(GMM)
混合正規分布モデル(GMM)は、データが複数の正規分布から生成されたという仮定に基づいています。各クラスタは異なる正規分布に対応します。GMMは、KMeansよりも柔軟性が高く、クラスタの形状が球形でない場合や、クラスタサイズが異なる場合に適しています。また、データポイントが複数のクラスタに所属する確率を提供するので、より豊富な情報を提供する手法になっています。
非階層クラスタリングは、特定の応用においては階層クラスタリングよりも優れており、大規模なデータセットや特定のクラスタ構造を持つデータセットに対して特に有用です。KMeansとGMMは、非階層クラスタリングの中でも特に強力で汎用性の高い手法となっています。他の手法も気になった方は、ぜひ調べてみてください。
KMeansアルゴリズム
続いて、先ほど説明したKMeans法のアルゴリズムについて詳しく解説していきます。
このアルゴリズムの目的は、クラスタ内のデータポイントとクラスタのセントロイド(クラスタ中心)との距離の総和を最小化することにより、効率的なデータのグループ化を実現することです。
一連のステップ
- 初期化:$k$個の初期クラスタ中心(セントロイド)をランダムに選択します。これは、データセットからランダムに$k$個のデータポイントを選び、それらを初期セントロイドとして使用することが一般的です。
- 割り当て:各データポイントに対して、最も近いセントロイドを持つクラスタに割り当てます。このステップでは、データポイントと各セントロイド間の距離を計算し、最も距離が短いセントロイドを選択します。距離の計算には通常、ユークリッド距離が使用されます。
- 更新:各クラスタに割り当てられたデータポイントに基づいて、新しいセントロイドを計算します。新しいセントロイドは、そのクラスタに属する全てのデータポイントの平均位置に設定されます。
- 収束判定:セントロイドが更新されなくなる(変化が一定の閾値以下になる)か、設定した反復回数に達するまで、ステップ2と3を繰り返します。
KMeansの目的関数はクラスタ内のデータポイントとセントロイドとの距離の総和を最小化することです。数式で表すと、以下のようになります。
J = \sum_{i=1}^{k} \sum_{\mathbf{x} \in C_i} \|\mathbf{x} - \mathbf{\mu}_i\|^2
- $J$はコスト関数
- $k$はクラスタの数
- $C_i$はクラスタ$i$に割り当てられたデータポイントの集合
- $x$はデータポイントを表す
- $u_i$はクラスタ$i$のセントロイド(中心)
- $||x-u_i||^2$はデータポイント$x$とセントロイド$u_i$とのユークリッド距離の二乗を表す
この最適化問題を解くことにより、KMeansはデータを$k$個のクラスタに効果的に分割し、各クラスタ内のデータの類似性を最大化しながら、異なるクラスタ間の類似性を最小化します。アルゴリズムが収束した時、クラスタ内のデータポイントは同じクラスタ内の他のポイントに比べてセントロイドに近く、異なるクラスタのデータポイントよりも遠くなります。これにより、データセット内の自然なグループやパターンを識別することができます。
注意点
KMeansクラスタリングは多くのシナリオで有用ですが、適用する際にはいくつかの重要な注意点があります。これらのポイントを理解し、適切に対処することで、より良いクラスタリング結果を得ることができます。
初期値依存性
KMeansの結果は、初期セントロイドの選択に大きく依存します。不適切な初期値は、局所的な最適解に収束する原因となり、全体としての最適なクラスタリング結果を見逃す可能性があります。
対策としては以下が考えられます
- k-means++の使用:初期セントロイドを賢く選択するために設計されたこの手法は、初期値依存性の問題を軽減するのに役立ちます。k-means++は、初期セントロイドを選択する際に、既に選択されたセントロイドからの距離に基づいて次のセントロイドを選ぶ確率を高めます。
- 複数回の実行:異なる初期セントロイドを用いてアルゴリズムを複数回実行し、最も低いコスト関数の値を出した結果を最終的なクラスタリング結果として採用します。
クラスタ数の決定
適切なクラスタ数$k$を事前に知ることは難しく、$k$の選択はクラスタリング結果に大きな影響を与えます。
- エルボー法:クラスタ数$k$の値を変えながらKMeansを実行し、コスト関数の値をプロットします。コスト関数の減少率が急激に変化する「エルボー」の点を最適なクラスタ数として選択します。
- シルエット分析:クラスタ内の凝集度とクラスタ間の分離度を評価し、クラスタ数$k$の最適な値を推定します。シルエット係数が高い値を示す$k$を選択します。
結果の解釈の重要性
KMeansはデータをクラスタに分割する強力な手法ですが、得られたクラスタの解釈はユーザーに委ねられています。クラスタリングの結果が常に直感的であるとは限らず、データのドメイン知識が結果の解釈に不可欠です。
実装例
Pythonのscikit-learn
ライブラリを使用して、KMeansクラスタリングを実装します。ここでは、エルボー法を用いて最適なクラスタ数$k$を決定し、クラスタリングの結果を解釈するための箱ひげ図を描く方法を示します。
データとしては、irisデータセットを利用して実装しています。
from sklearn.cluster import KMeans
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import seaborn as sns
# データセットの読み込み
data = load_iris()
X = data.data
# エルボー法によるkの決定
distortions = []
for i in range(1, 11):
km = KMeans(n_clusters=i, init='k-means++', n_init=10, max_iter=300, random_state=0)
km.fit(X)
distortions.append(km.inertia_)
plt.plot(range(1, 11), distortions, marker='o')
plt.xlabel('Number of clusters')
plt.ylabel('Distortion')
plt.show()
# 最適なクラスタ数でKMeansクラスタリング
k = 3 # この例では、k=3が最適と仮定
km = KMeans(n_clusters=k, init='k-means++', n_init=10, max_iter=300, random_state=0)
y_km = km.fit_predict(X)
# 箱ひげ図によるクラスタごとの特徴量の比較
df = pd.DataFrame(X, columns=data.feature_names)
df['Cluster'] = y_km
plt.figure(figsize=(10, 7))
for i in range(data.data.shape[1]):
plt.subplot(2, 2, i+1)
sns.boxplot(x='Cluster', y=data.feature_names[i], data=df)
plt.tight_layout()
plt.show()
このコードは、まずエルボー法を用いて最適なクラスタ数を決定し、その後選ばれたクラスタ数でKMeansクラスタリングを実行します。最後に、クラスタごとの特徴量を箱ひげ図で比較し、クラスタリングの結果を解釈します。
さいごに
最後まで読んでいただきありがとうございました!
少しでもデータサイエンティストを目指す方の一助となればと思います。
もし僕の活動にもご興味を持っていただけたら、X(Twitter)もフォローしていただけると嬉しいです!
X(Twitter)
参考文献
- K-meansクラスタリング
https://qiita.com/maskot1977/items/34158d044711231c4292 - k-means法を理解する
https://qiita.com/g-k/items/0d5d22a12a4507ecbf11 - k-means++を理解する
https://qiita.com/g-k/items/e1d558ffcdc833e6382c - pythonで「異常検知と変化検知」を読む4 混合分布モデルによる逐次更新型異常検知
https://qiita.com/tanaka_benkyo/items/04a34be5b850bf271254