1
4

More than 5 years have passed since last update.

クラスター分析について

Posted at

クラスター分析とは

  • 観測対象を互いに似た者同士でグループ分けをする手法。似たような傾向を示す消費者をいくつかのグループに分類することで消費者の大まかなニーズを掴むことができる。

  • 大きく分けて階層的手法と非階層的手法がある。それぞれの代表的な手法として、ウォード法、k-means法とがある。

  • 教師データを用いない手法のひとつ。

教師ありと教師なし

教師あり
- 与えられたデータを適切なクラスへ振り分ける。
- 既存データを基に作成したルールで、新規データを振り分ける。
image

教師なし
- 与えられたデータを複数のグループへ分ける。
- データの特徴を基に意味のあるグループがないかみつける。
image

階層型と非階層型

階層型クラスター分析
- 各データをひとつのクラスタとみなし、距離が近いクラスタを段階的に結合する手法。
- ウォード法など
image

非階層型クラスター分析
- 決められたクラスタ数でデータを分割し、最適分割となる分割方法を探索する手法。
- k-means法など
image

類似度とは

  • 東京と北海道、東京と沖縄の2地点間の距離を調べる。
  • 3地点の都道県庁の軽度と緯度から、2地点間の距離を求める。
県庁所在地 緯度 経度
東京都庁 139.69 35.69
沖縄県庁 127.68 26.21
北海道庁 141.35 43.06

2地点間の距離は、三平方の定理から、都市間の経度の差の2乗と緯度の差の2乗の和について正の平方根をとった。

東京都庁 沖縄県庁
沖縄県庁 15.30
北海道庁 7.35 21.70
  • 東京と北海道が最も近く、東京と沖縄の約1/2。
  • このような一般的に利用する距離を「ユークリッド距離」と呼び、クラスタリングにおいてはこの「距離」の概念を用いて、似ているものどうしをまとめていく。
1
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
4