目的
- 上の記事と同じようにをアヤメを分類する。
- (アヤメは特徴量が4つなので、前回の記事とは違ってxyグラフでデータの分布を見ることはできない。)
検証方法
- クラスタ数をアヤメの種類と同じ3に設定する
- setosa, versicolor, virginicaのそれぞれが同じクラスタに所属することを期待していた
- 先に結果を述べると、この3種類をきれいに分類することはできなかった(理由は後述)
- setosa, versicolor, virginicaのそれぞれが同じクラスタに所属することを期待していた
- 今回は前回の記事で用いたソースコードを少し変えるだけでOK
- 前回のクラスタリングのコードとの差分
結果
- クラスタリングの結果
- setosaはすべてクラスタ0
- versicolorはクラスタ1とクラスタ2が混在
- virginicaはクラスタ1とクラスタ2が混在
- ※初期にクラスタ番号をランダムに割り振っているため、クラスタ番号自体は実行のたびに変化する。setosaがクラスタ1や2になることもある
| cluster 0 | cluster 1 | cluster 2 | |
|---|---|---|---|
| setosa | 50 | 0 | 0 |
| versicolor | 0 | 3 | 47 |
| virginica | 0 | 36 | 14 |
5.1,3.5,1.4,0.2,Iris-setosa,0
4.9,3.0,1.4,0.2,Iris-setosa,0
...
5.3,3.7,1.5,0.2,Iris-setosa,0
5.0,3.3,1.4,0.2,Iris-setosa,0
7.0,3.2,4.7,1.4,Iris-versicolor,1
6.4,3.2,4.5,1.5,Iris-versicolor,2
6.9,3.1,4.9,1.5,Iris-versicolor,1
5.5,2.3,4.0,1.3,Iris-versicolor,2
...
5.1,2.5,3.0,1.1,Iris-versicolor,2
5.7,2.8,4.1,1.3,Iris-versicolor,2
6.3,3.3,6.0,2.5,Iris-virginica,1
5.8,2.7,5.1,1.9,Iris-virginica,2
7.1,3.0,5.9,2.1,Iris-virginica,1
6.3,2.9,5.6,1.8,Iris-virginica,1
...
6.2,3.4,5.4,2.3,Iris-virginica,1
5.9,3.0,5.1,1.8,Iris-virginica,2
考察
- クラスタリングが正確にならない原因はversicolorとvirginicaは4つの特徴量が似ているため
考察に関する検証
3種類それぞれにおいて、4つの特徴量の分布を調べる
- 種類ごとに、4つの特徴量に対してそれぞれの平均を計算した
- 左から Sepal Length, Sepal Width, Petal Length, Petal Width の値である
- versicolorとvirginicaに関してはSepal Widthの平均値が近い
- 4つの特徴量すべてにおいて、versicolorとvirginicaの平均値の差はsetosaと比較するとやや小さい
<Sepal Length>, <Sepal Width>, <Petal Length>, <Petal Width>
== Average ==
(1) setosa : 5.005999, 3.417999, 1.464000, 0.244000,
(2) versicolor : 5.935999, 2.770000, 4.260000, 1.326000,
(3) virginica : 6.588000, 2.974000, 5.552000, 2.026000,
- 次に、値の範囲ごとにおいてサンプルの個数の分布を求めた(ヒストグラムのようにコンソールに表示した)
- 左から 値の範囲, Sepal Length, Sepal Width, Petal Length, Petal Width である
- 平均値と同じようにversicolorとvirginicaの特徴量の分布はsetosaの分布と比較すると近い
Range(cm) : <Sepal Length>, <Sepal Width>, <Petal Length>, <Petal Width>
== (1) setosa ==
0.0 ~ 0.5, 0, 0, 0, 48,
0.5 ~ 1.0, 0, 0, 0, 2,
1.0 ~ 1.5, 0, 0, 23, 0,
1.5 ~ 2.0, 0, 0, 27, 0,
2.0 ~ 2.5, 0, 1, 0, 0,
2.5 ~ 3.0, 0, 1, 0, 0,
3.0 ~ 3.5, 0, 27, 0, 0,
3.5 ~ 4.0, 0, 17, 0, 0,
4.0 ~ 4.5, 4, 4, 0, 0,
4.5 ~ 5.0, 16, 0, 0, 0,
5.0 ~ 5.5, 25, 0, 0, 0,
5.5 ~ 6.0, 5, 0, 0, 0,
6.0 ~ 6.5, 0, 0, 0, 0,
6.5 ~ 7.0, 0, 0, 0, 0,
7.0 ~ 7.5, 0, 0, 0, 0,
7.5 ~ 8.0, 0, 0, 0, 0,
8.0 ~ 8.5, 0, 0, 0, 0,
8.5 ~ 9.0, 0, 0, 0, 0,
9.0 ~ 9.5, 0, 0, 0, 0,
9.5 ~ 10.0, 0, 0, 0, 0,
== (2) versicolor ==
0.0 ~ 0.5, 0, 0, 0, 0,
0.5 ~ 1.0, 0, 0, 0, 0,
1.0 ~ 1.5, 0, 0, 0, 35,
1.5 ~ 2.0, 0, 0, 0, 15,
2.0 ~ 2.5, 0, 9, 0, 0,
2.5 ~ 3.0, 0, 25, 0, 0,
3.0 ~ 3.5, 0, 16, 3, 0,
3.5 ~ 4.0, 0, 0, 8, 0,
4.0 ~ 4.5, 0, 0, 18, 0,
4.5 ~ 5.0, 1, 0, 19, 0,
5.0 ~ 5.5, 5, 0, 2, 0,
5.5 ~ 6.0, 20, 0, 0, 0,
6.0 ~ 6.5, 15, 0, 0, 0,
6.5 ~ 7.0, 8, 0, 0, 0,
7.0 ~ 7.5, 1, 0, 0, 0,
7.5 ~ 8.0, 0, 0, 0, 0,
8.0 ~ 8.5, 0, 0, 0, 0,
8.5 ~ 9.0, 0, 0, 0, 0,
9.0 ~ 9.5, 0, 0, 0, 0,
9.5 ~ 10.0, 0, 0, 0, 0,
== (3) virginica ==
0.0 ~ 0.5, 0, 0, 0, 0,
0.5 ~ 1.0, 0, 0, 0, 0,
1.0 ~ 1.5, 0, 0, 0, 1,
1.5 ~ 2.0, 0, 0, 0, 20,
2.0 ~ 2.5, 0, 1, 0, 26,
2.5 ~ 3.0, 0, 20, 0, 3,
3.0 ~ 3.5, 0, 26, 0, 0,
3.5 ~ 4.0, 0, 3, 0, 0,
4.0 ~ 4.5, 0, 0, 0, 0,
4.5 ~ 5.0, 1, 0, 6, 0,
5.0 ~ 5.5, 0, 0, 16, 0,
5.5 ~ 6.0, 6, 0, 17, 0,
6.0 ~ 6.5, 17, 0, 7, 0,
6.5 ~ 7.0, 14, 0, 4, 0,
7.0 ~ 7.5, 6, 0, 0, 0,
7.5 ~ 8.0, 6, 0, 0, 0,
8.0 ~ 8.5, 0, 0, 0, 0,
8.5 ~ 9.0, 0, 0, 0, 0,
9.0 ~ 9.5, 0, 0, 0, 0,
9.5 ~ 10.0, 0, 0, 0, 0,
結論
- 平均やヒストグラムからversicolorとvirginicaは特徴が似ていることが読み取れる. これが曖昧に分類される理由と考えられる