やるんなら、ということで興味次第だけど、現在のリーディング100位までのデータで分析した。
手法は前回記事のとおりである。
やったこと
・とにかく分類
・お気に入り
・とにかく分類
カテゴリ;2(上段;PCA後、下段;多変量)特徴;カテゴリの分かれ目が単純な順位ではないが、上段下段は同じ
カテゴリ;3 特徴;上段と下段は境界領域で少し異なる(例;43)
カテゴリ;4 特徴;上段と下段は境界領域で少し異なる(例;51)
カテゴリ;5 特徴;上段と下段は境界領域で少し異なる(例;40,44)
カテゴリ;6 特徴;上段と下段で異なる(例;43蛯名と16横山だけのカテゴリ)
カテゴリ;7 特徴;上段と下段で異なる(例;48藤田、8北村、10戸崎辺りのカテゴリ)
カテゴリ;8 特徴;上段と下段で異なる(例;6、他色々のカテゴリ)
カテゴリ;9 特徴;上段と下段で異なる(例;16、43、他色々のカテゴリ)
カテゴリ;10 特徴;上段と下段で異なる(例;6、8,10のカテゴリ、他色々のカテゴリ)
カテゴリ;11 特徴;上段と下段で異なる(例;1だけカテゴリと11、14,20、26のカテゴリ、他色々のカテゴリ)
カテゴリ;12 特徴;上段と下段で異なる
カテゴリ;13 特徴;上段と下段で異なるが、どちらも4デムーロ、7マーフィーだけのカテゴリ
カテゴリ;14 特徴;上段と下段で異なるが、どちらも4デムーロ、7マーフィーだけのカテゴリ
カテゴリ;15 特徴;上段と下段で異なる(例;40川又,33北村の所属など)
お気に入り
カテゴリされた結果を見ると、それぞれがなかなかの分類な気がしてくる。
やはり、クリスタリングというのは一つの整理方法であって、ある一定の規則で分類しているに過ぎない。それぞれのデータの意味を考えつつ何を重視してカテゴライズするのかという恣意性が残るものだということが身に染みる結果となっている。
そういう意味では、蛯名と横山のカテゴリやデムーロとマーフィーのカテゴリは単にデータがそういう類似性を持っているというだけだが、それがなんとなく現実的な意味としてわかるような気がする。
藤田菜七子さんは、こんなにリーディング上位だったというのがちょっと驚きであるが、だからこそGIにも出走できるし、それなりの有力馬に乗れるのだというのが改めて納得した。
上位では、武やルメールはともかく、川田がほんとの意味でトップクラスなんだというのがわかる。それに続くのが、福永、岩田、北村、戸崎で、池添や三浦のカテゴリが少し厳しめに出ているようだ。
一方、和田は26位、田辺は19位だが、カテゴリ的には池添、三浦と同じカテゴリまたは上位のカテゴリに属しているのが注目に値する。
まとめ
・クラスタリング結果の評価をやってみた
・クラスタリングは恣意性が残ることが分かった
・データの重要性の評価を客観的に実施する手法が分からない
※第一目標(例えば今回ならマネーやランキングの指標値)との相関などを超える客観性の有無
おまけ
リーディング(2019年度 リーディングジョッキー (全国) 2019年2月24日現在)より