LoginSignup
0
1

More than 5 years have passed since last update.

【機械学習入門】「K-meansクラスタリング」というのをやってみる♬競馬騎手評価;リーディング100位

Last updated at Posted at 2019-02-24

やるんなら、ということで興味次第だけど、現在のリーディング100位までのデータで分析した。
手法は前回記事のとおりである。

やったこと

・とにかく分類
・お気に入り

・とにかく分類

カテゴリ;2(上段;PCA後、下段;多変量)特徴;カテゴリの分かれ目が単純な順位ではないが、上段下段は同じ
keiba_std2_PCA12_plotn2.jpg
keiba_std2_PCA12_plotSn2.jpg
カテゴリ;3 特徴;上段と下段は境界領域で少し異なる(例;43)
keiba_std2_PCA12_plotn3.jpg
keiba_std2_PCA12_plotSn3.jpg
カテゴリ;4 特徴;上段と下段は境界領域で少し異なる(例;51)
keiba_std2_PCA12_plotn4.jpg
keiba_std2_PCA12_plotSn4.jpg
カテゴリ;5 特徴;上段と下段は境界領域で少し異なる(例;40,44)
keiba_std2_PCA12_plotn5.jpg
keiba_std2_PCA12_plotSn5.jpg
カテゴリ;6 特徴;上段と下段で異なる(例;43蛯名と16横山だけのカテゴリ)
keiba_std2_PCA12_plotn6.jpg
keiba_std2_PCA12_plotSn6.jpg
カテゴリ;7 特徴;上段と下段で異なる(例;48藤田、8北村、10戸崎辺りのカテゴリ)
keiba_std2_PCA12_plotn7.jpg
keiba_std2_PCA12_plotSn7.jpg
カテゴリ;8 特徴;上段と下段で異なる(例;6、他色々のカテゴリ)
keiba_std2_PCA12_plotn8.jpg
keiba_std2_PCA12_plotSn8.jpg
カテゴリ;9 特徴;上段と下段で異なる(例;16、43、他色々のカテゴリ)
keiba_std2_PCA12_plotn9.jpg
keiba_std2_PCA12_plotSn9.jpg
カテゴリ;10 特徴;上段と下段で異なる(例;6、8,10のカテゴリ、他色々のカテゴリ)
keiba_std2_PCA12_plotn10.jpg
keiba_std2_PCA12_plotSn10.jpg
カテゴリ;11 特徴;上段と下段で異なる(例;1だけカテゴリと11、14,20、26のカテゴリ、他色々のカテゴリ)
keiba_std2_PCA12_plotn11.jpg
keiba_std2_PCA12_plotSn11.jpg
カテゴリ;12 特徴;上段と下段で異なる
keiba_std2_PCA12_plotn12.jpg
keiba_std2_PCA12_plotSn12.jpg
カテゴリ;13 特徴;上段と下段で異なるが、どちらも4デムーロ、7マーフィーだけのカテゴリ
keiba_std2_PCA12_plotn13.jpg
keiba_std2_PCA12_plotSn13.jpg
カテゴリ;14 特徴;上段と下段で異なるが、どちらも4デムーロ、7マーフィーだけのカテゴリ
keiba_std2_PCA12_plotn14.jpg
keiba_std2_PCA12_plotSn14.jpg
カテゴリ;15 特徴;上段と下段で異なる(例;40川又,33北村の所属など)
keiba_std2_PCA12_plotn15.jpg
keiba_std2_PCA12_plotSn15.jpg

お気に入り

カテゴリされた結果を見ると、それぞれがなかなかの分類な気がしてくる。
やはり、クリスタリングというのは一つの整理方法であって、ある一定の規則で分類しているに過ぎない。それぞれのデータの意味を考えつつ何を重視してカテゴライズするのかという恣意性が残るものだということが身に染みる結果となっている。
そういう意味では、蛯名と横山のカテゴリやデムーロとマーフィーのカテゴリは単にデータがそういう類似性を持っているというだけだが、それがなんとなく現実的な意味としてわかるような気がする。
藤田菜七子さんは、こんなにリーディング上位だったというのがちょっと驚きであるが、だからこそGIにも出走できるし、それなりの有力馬に乗れるのだというのが改めて納得した。
上位では、武やルメールはともかく、川田がほんとの意味でトップクラスなんだというのがわかる。それに続くのが、福永、岩田、北村、戸崎で、池添や三浦のカテゴリが少し厳しめに出ているようだ。
一方、和田は26位、田辺は19位だが、カテゴリ的には池添、三浦と同じカテゴリまたは上位のカテゴリに属しているのが注目に値する。

まとめ

・クラスタリング結果の評価をやってみた
・クラスタリングは恣意性が残ることが分かった

・データの重要性の評価を客観的に実施する手法が分からない
 ※第一目標(例えば今回ならマネーやランキングの指標値)との相関などを超える客観性の有無

おまけ

リーディング(2019年度 リーディングジョッキー (全国) 2019年2月24日現在)より
image.png

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1