ここではクラスタリングについて簡単にメモる。
参考文献: RとPythonで学ぶ[実践的]データサイエンス&機械学習【増補改訂版
1 階層型クラスタリング
ex)
RFM分析→より詳細なマーケティングを行うために使用されるフレームワーク
・Recency 直近購入日
・Frequency 購入回数
・Monetary 購入金額
上記の3軸をもとにクラスタリングを行う。
"どう分類するか"問題
1.nグループに分けるか。
2.どこを基準で分けるか。
を考える必要がある。
<考え方>
要素が近い(距離が近い)ものを同グループと考える。距離の測定方法としてはユークリッド距離を採用する。
・クラスタリングの注意
<スケール>
横軸が購入回数(n回)、縦軸が購入金額(円)とする時どうしても縦軸の方が大きい数字になる(購入回数は多くても2桁、しかし金額は5~桁になることもままありうる)。そのため両者のスケールを統一する必要がある。そこで標準化を使用する。標準化とは以下のように平均を0、標準偏差を1になるようにデータを変換することである。
標準化=\frac{X_iを平均で引く}{標準偏差}
Z_i=\frac{x_i-\bar{x}}{\sqrt{\frac{1}{n}\sum_{n=1}^{i}(n_i-\bar{n})}}
これによって単位が異なる軸同士で正常にクラスタリングを行うことができる。
以下で実装をしてみる。
まずはデータの確認を行う。
データは
・Recency 直近購入日(YYYY-MM-DD)
・Frequency 購入回数(回)
・Monetary 購入金額(円)
に加えて、レコードIDが表記されていることがわかる。また基本統計量はsummary()にまとめてあるので一度目をとうしてみて欲しい。
> head(DF,3)
ID recency frequency monetary
1 A0004 2016-04-19 3 1830
2 A0455 2016-04-17 6 5280
3 A0456 2016-04-02 1 775
> summary(DF)
ID recency frequency monetary
Length:84 Length:84 Min. : 1.000 Min. : 100.0
Class :character Class :character 1st Qu.: 1.000 1st Qu.: 935.8
Mode :character Mode :character Median : 2.000 Median : 1812.5
Mean : 3.048 Mean : 3069.0
3rd Qu.: 4.250 3rd Qu.: 4366.2
Max. :11.000 Max. :13606.0
前述したようにスケールを統一するために標準化を行う。Rではscale()を使用することでこれが可能になる。
# scale()でスケールの統一
DFn <- data.frame(scale(DFn))
summary(DFn)
これからクラスタの実装を行う。
# 階層型クラスタリング
# dist() 全ての距離行列を作成
DIST <- dist(DFn)
DIST
# 階層型クラスタリングで樹形図を表示
result_hc <- hclust(DIST, method="ward.D2")
plot(result_hc) #下図を参照
# クラスタ数の指定
num_hc <- cutree(result_hc, k=4) #クラスタ数の指定
num_hc<- factor(num_hc) # 数値をカテゴリに
> head(num_hc)
A0004 A0455 A0456 A0890 A0895 A0896
1 2 3 3 2 1
Levels: 1 2 3 4
> table(num_hc) #クラスタごとの集計
num_hc
1 2 3 4
35 19 21 9
参考としてrecencyにおけるクラスターごとの箱ヒゲ図を置いておく。
2 非階層型クラスタリング(K平均法)
K平均法はあらかじめk個の中心点がランダムに設定され、その中心点に近い要素をまとめてクラスタとして識別する。これを何回も繰り返すことで最終的なクラスタを決定する。K平均法のメリットは階層型クラスタリングよりも実行速度が速いことにあり、データの数が大量に存在する時に有効な手段になる。
# K-meanによるクラスタリング
# 対象データ、クラスタ数、最大繰り返し数
km <- kmeans(DFn, 4, iter.max = 30)
> head(km$cluster)
A0004 A0455 A0456 A0890 A0895 A0896
2 1 3 3 1 2
> table(km$cluster) #クラスタごとの集計
1 2 3 4
21 41 18 4
3 散布図と相関係数
# 散布図を描く
library(ggplot2)
library(GGally)
ggpairs(DFn,
aes(colour=num_hc, #クラスタを色、形で識別できるように
shape = num_hc,
alpha=0.9),
#左下を散布図
lower=list(continuous=wrap("points", size=4)),
#右上を相関係数
upper=list(continuous=wrap("cor", size=4)) ) +
#背景:白
theme_bw()
4 3次元プロット
# 3D描画ライブラリ
library(threejs)
# 階層ごとの色ラベルを作成
color_hc <- num_hc
head(color_hc)
# クラスタ番号・色を変更
# levels() factorのラベル指定
levels(color_hc) = c("lightpink", "green4", "deepskyblue4", "plum2")
# factorの実態は整数なので文字列に変換
color_hc <- as.character(color_hc)
# scatterplots3js 3Dプロット
# 引数最初に3次元データと指定(matrix形式に)
# color 色分け
# labels 各ラベル
# size 各プロットの大きさ
scatterplot3js(as.matrix(DFn), #座標データ
color=color_hc, #色指定
labels=DF$ID, #ケースラベル
size=.5)