Edited at

【機械学習入門】「K-meansクラスタリング」というのをやってみる♬競馬騎手評価;リーディング100位

やるんなら、ということで興味次第だけど、現在のリーディング100位までのデータで分析した。

手法は前回記事のとおりである。


やったこと

・とにかく分類

・お気に入り


・とにかく分類

カテゴリ;2(上段;PCA後、下段;多変量)特徴;カテゴリの分かれ目が単純な順位ではないが、上段下段は同じ

keiba_std2_PCA12_plotn2.jpg

keiba_std2_PCA12_plotSn2.jpg

カテゴリ;3 特徴;上段と下段は境界領域で少し異なる(例;43)

keiba_std2_PCA12_plotn3.jpg

keiba_std2_PCA12_plotSn3.jpg

カテゴリ;4 特徴;上段と下段は境界領域で少し異なる(例;51)

keiba_std2_PCA12_plotn4.jpg

keiba_std2_PCA12_plotSn4.jpg

カテゴリ;5 特徴;上段と下段は境界領域で少し異なる(例;40,44)

keiba_std2_PCA12_plotn5.jpg

keiba_std2_PCA12_plotSn5.jpg

カテゴリ;6 特徴;上段と下段で異なる(例;43蛯名と16横山だけのカテゴリ)

keiba_std2_PCA12_plotn6.jpg

keiba_std2_PCA12_plotSn6.jpg

カテゴリ;7 特徴;上段と下段で異なる(例;48藤田、8北村、10戸崎辺りのカテゴリ)

keiba_std2_PCA12_plotn7.jpg

keiba_std2_PCA12_plotSn7.jpg

カテゴリ;8 特徴;上段と下段で異なる(例;6、他色々のカテゴリ)

keiba_std2_PCA12_plotn8.jpg

keiba_std2_PCA12_plotSn8.jpg

カテゴリ;9 特徴;上段と下段で異なる(例;16、43、他色々のカテゴリ)

keiba_std2_PCA12_plotn9.jpg

keiba_std2_PCA12_plotSn9.jpg

カテゴリ;10 特徴;上段と下段で異なる(例;6、8,10のカテゴリ、他色々のカテゴリ)

keiba_std2_PCA12_plotn10.jpg

keiba_std2_PCA12_plotSn10.jpg

カテゴリ;11 特徴;上段と下段で異なる(例;1だけカテゴリと11、14,20、26のカテゴリ、他色々のカテゴリ)

keiba_std2_PCA12_plotn11.jpg

keiba_std2_PCA12_plotSn11.jpg

カテゴリ;12 特徴;上段と下段で異なる

keiba_std2_PCA12_plotn12.jpg

keiba_std2_PCA12_plotSn12.jpg

カテゴリ;13 特徴;上段と下段で異なるが、どちらも4デムーロ、7マーフィーだけのカテゴリ

keiba_std2_PCA12_plotn13.jpg

keiba_std2_PCA12_plotSn13.jpg

カテゴリ;14 特徴;上段と下段で異なるが、どちらも4デムーロ、7マーフィーだけのカテゴリ

keiba_std2_PCA12_plotn14.jpg

keiba_std2_PCA12_plotSn14.jpg

カテゴリ;15 特徴;上段と下段で異なる(例;40川又,33北村の所属など)

keiba_std2_PCA12_plotn15.jpg

keiba_std2_PCA12_plotSn15.jpg


お気に入り

カテゴリされた結果を見ると、それぞれがなかなかの分類な気がしてくる。

やはり、クリスタリングというのは一つの整理方法であって、ある一定の規則で分類しているに過ぎない。それぞれのデータの意味を考えつつ何を重視してカテゴライズするのかという恣意性が残るものだということが身に染みる結果となっている。

そういう意味では、蛯名と横山のカテゴリやデムーロとマーフィーのカテゴリは単にデータがそういう類似性を持っているというだけだが、それがなんとなく現実的な意味としてわかるような気がする。

藤田菜七子さんは、こんなにリーディング上位だったというのがちょっと驚きであるが、だからこそGIにも出走できるし、それなりの有力馬に乗れるのだというのが改めて納得した。

上位では、武やルメールはともかく、川田がほんとの意味でトップクラスなんだというのがわかる。それに続くのが、福永、岩田、北村、戸崎で、池添や三浦のカテゴリが少し厳しめに出ているようだ。

一方、和田は26位、田辺は19位だが、カテゴリ的には池添、三浦と同じカテゴリまたは上位のカテゴリに属しているのが注目に値する。


まとめ

・クラスタリング結果の評価をやってみた

・クラスタリングは恣意性が残ることが分かった

・データの重要性の評価を客観的に実施する手法が分からない

 ※第一目標(例えば今回ならマネーやランキングの指標値)との相関などを超える客観性の有無


おまけ

リーディング(2019年度 リーディングジョッキー (全国) 2019年2月24日現在)より

image.png