0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

k-meansクラスタリング(アヤメ->変数4つ) in python

Last updated at Posted at 2025-12-02

目的

  • 上の記事と同じようにをアヤメを分類する。
    • (アヤメは特徴量が4つなので、前回の記事とは違ってxyグラフでデータの分布を見ることはできない。)

検証方法

  • クラスタ数をアヤメの種類と同じ3に設定する
    • setosa, versicolor, virginicaのそれぞれが同じクラスタに所属することを期待していた
      • 先に結果を述べると、この3種類をきれいに分類することはできなかった(理由は後述)
  • 今回は前回の記事で用いたソースコードを少し変えるだけでOK
  • 前回のクラスタリングのコードとの差分

結果

  • クラスタリングの結果
    • setosaはすべてクラスタ0
    • versicolorはクラスタ1とクラスタ2が混在
    • virginicaはクラスタ1とクラスタ2が混在
  • ※初期にクラスタ番号をランダムに割り振っているため、クラスタ番号自体は実行のたびに変化する。setosaがクラスタ1や2になることもある
cluster 0 cluster 1 cluster 2
setosa 50 0 0
versicolor 0 3 47
virginica 0 36 14
5.1,3.5,1.4,0.2,Iris-setosa,0
4.9,3.0,1.4,0.2,Iris-setosa,0
...
5.3,3.7,1.5,0.2,Iris-setosa,0
5.0,3.3,1.4,0.2,Iris-setosa,0
7.0,3.2,4.7,1.4,Iris-versicolor,1
6.4,3.2,4.5,1.5,Iris-versicolor,2
6.9,3.1,4.9,1.5,Iris-versicolor,1
5.5,2.3,4.0,1.3,Iris-versicolor,2
...
5.1,2.5,3.0,1.1,Iris-versicolor,2
5.7,2.8,4.1,1.3,Iris-versicolor,2
6.3,3.3,6.0,2.5,Iris-virginica,1
5.8,2.7,5.1,1.9,Iris-virginica,2
7.1,3.0,5.9,2.1,Iris-virginica,1
6.3,2.9,5.6,1.8,Iris-virginica,1
...
6.2,3.4,5.4,2.3,Iris-virginica,1
5.9,3.0,5.1,1.8,Iris-virginica,2

考察

  • クラスタリングが正確にならない原因はversicolorとvirginicaは4つの特徴量が似ているため

考察に関する検証

3種類それぞれにおいて、4つの特徴量の分布を調べる
  • 種類ごとに、4つの特徴量に対してそれぞれの平均を計算した
    • 左から Sepal Length, Sepal Width, Petal Length, Petal Width の値である
    • versicolorとvirginicaに関してはSepal Widthの平均値が近い
    • 4つの特徴量すべてにおいて、versicolorとvirginicaの平均値の差はsetosaと比較するとやや小さい
<Sepal Length>, <Sepal Width>, <Petal Length>, <Petal Width>
== Average ==
(1)      setosa : 5.005999, 3.417999, 1.464000, 0.244000, 
(2)  versicolor : 5.935999, 2.770000, 4.260000, 1.326000, 
(3)   virginica : 6.588000, 2.974000, 5.552000, 2.026000,
  • 次に、値の範囲ごとにおいてサンプルの個数の分布を求めた(ヒストグラムのようにコンソールに表示した)
    • 左から 値の範囲, Sepal Length, Sepal Width, Petal Length, Petal Width である
    • 平均値と同じようにversicolorとvirginicaの特徴量の分布はsetosaの分布と比較すると近い
Range(cm) : <Sepal Length>, <Sepal Width>, <Petal Length>, <Petal Width>
== (1)      setosa ==
 0.0 ~  0.5,   0,   0,   0,  48, 
 0.5 ~  1.0,   0,   0,   0,   2, 
 1.0 ~  1.5,   0,   0,  23,   0, 
 1.5 ~  2.0,   0,   0,  27,   0, 
 2.0 ~  2.5,   0,   1,   0,   0, 
 2.5 ~  3.0,   0,   1,   0,   0, 
 3.0 ~  3.5,   0,  27,   0,   0, 
 3.5 ~  4.0,   0,  17,   0,   0, 
 4.0 ~  4.5,   4,   4,   0,   0, 
 4.5 ~  5.0,  16,   0,   0,   0, 
 5.0 ~  5.5,  25,   0,   0,   0, 
 5.5 ~  6.0,   5,   0,   0,   0, 
 6.0 ~  6.5,   0,   0,   0,   0, 
 6.5 ~  7.0,   0,   0,   0,   0, 
 7.0 ~  7.5,   0,   0,   0,   0, 
 7.5 ~  8.0,   0,   0,   0,   0, 
 8.0 ~  8.5,   0,   0,   0,   0, 
 8.5 ~  9.0,   0,   0,   0,   0, 
 9.0 ~  9.5,   0,   0,   0,   0, 
 9.5 ~ 10.0,   0,   0,   0,   0, 

== (2)  versicolor ==
 0.0 ~  0.5,   0,   0,   0,   0, 
 0.5 ~  1.0,   0,   0,   0,   0, 
 1.0 ~  1.5,   0,   0,   0,  35, 
 1.5 ~  2.0,   0,   0,   0,  15, 
 2.0 ~  2.5,   0,   9,   0,   0, 
 2.5 ~  3.0,   0,  25,   0,   0, 
 3.0 ~  3.5,   0,  16,   3,   0, 
 3.5 ~  4.0,   0,   0,   8,   0, 
 4.0 ~  4.5,   0,   0,  18,   0, 
 4.5 ~  5.0,   1,   0,  19,   0, 
 5.0 ~  5.5,   5,   0,   2,   0, 
 5.5 ~  6.0,  20,   0,   0,   0, 
 6.0 ~  6.5,  15,   0,   0,   0, 
 6.5 ~  7.0,   8,   0,   0,   0, 
 7.0 ~  7.5,   1,   0,   0,   0, 
 7.5 ~  8.0,   0,   0,   0,   0, 
 8.0 ~  8.5,   0,   0,   0,   0, 
 8.5 ~  9.0,   0,   0,   0,   0, 
 9.0 ~  9.5,   0,   0,   0,   0, 
 9.5 ~ 10.0,   0,   0,   0,   0, 

== (3)   virginica ==
 0.0 ~  0.5,   0,   0,   0,   0, 
 0.5 ~  1.0,   0,   0,   0,   0, 
 1.0 ~  1.5,   0,   0,   0,   1, 
 1.5 ~  2.0,   0,   0,   0,  20, 
 2.0 ~  2.5,   0,   1,   0,  26, 
 2.5 ~  3.0,   0,  20,   0,   3, 
 3.0 ~  3.5,   0,  26,   0,   0, 
 3.5 ~  4.0,   0,   3,   0,   0, 
 4.0 ~  4.5,   0,   0,   0,   0, 
 4.5 ~  5.0,   1,   0,   6,   0, 
 5.0 ~  5.5,   0,   0,  16,   0, 
 5.5 ~  6.0,   6,   0,  17,   0, 
 6.0 ~  6.5,  17,   0,   7,   0, 
 6.5 ~  7.0,  14,   0,   4,   0, 
 7.0 ~  7.5,   6,   0,   0,   0, 
 7.5 ~  8.0,   6,   0,   0,   0, 
 8.0 ~  8.5,   0,   0,   0,   0, 
 8.5 ~  9.0,   0,   0,   0,   0, 
 9.0 ~  9.5,   0,   0,   0,   0, 
 9.5 ~ 10.0,   0,   0,   0,   0,
結論
  • 平均やヒストグラムからversicolorとvirginicaは特徴が似ていることが読み取れる. これが曖昧に分類される理由と考えられる
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?