#クラスター分析とは
-
観測対象を互いに似た者同士でグループ分けをする手法。似たような傾向を示す消費者をいくつかのグループに分類することで消費者の大まかなニーズを掴むことができる。
-
大きく分けて階層的手法と非階層的手法がある。それぞれの代表的な手法として、ウォード法、k-means法とがある。
-
教師データを用いない手法のひとつ。
##教師ありと教師なし
教師あり
教師なし
##階層型と非階層型
階層型クラスター分析
非階層型クラスター分析
##類似度とは
- 東京と北海道、東京と沖縄の2地点間の距離を調べる。
- 3地点の都道県庁の軽度と緯度から、2地点間の距離を求める。
県庁所在地 | 緯度 | 経度 |
---|---|---|
東京都庁 | 139.69 | 35.69 |
沖縄県庁 | 127.68 | 26.21 |
北海道庁 | 141.35 | 43.06 |
2地点間の距離は、三平方の定理から、都市間の経度の差の2乗と緯度の差の2乗の和について正の平方根をとった。
東京都庁 | 沖縄県庁 | |
---|---|---|
沖縄県庁 | 15.30 | |
北海道庁 | 7.35 | 21.70 |
- 東京と北海道が最も近く、東京と沖縄の約1/2。
- このような一般的に利用する距離を「ユークリッド距離」と呼び、クラスタリングにおいてはこの「距離」の概念を用いて、似ているものどうしをまとめていく。