NCAAを深堀してみよう
皆さんはNCAAというバスケのリーグをご存じでしょうか。実はNCAAというのはNBAよりもビッグなリーグなのです。
NCAAは、全米の大学で構成される大学生のバスケットボールリーグで、圧巻なのはその大学数と学生数です。
Division1から3までに分かれており、各Divisionには300校以上が参加、試合数は延べ15,000試合を超えます。
このような規模なので、アメリカではNBAに負けず劣らずとても人気なのです。
NCAAのリーグ構造を少し深堀してみましょう。わかりやすい記事はこちら
Division1の中には、さらに32のカンファレンスという分類があり、すべての大学はその大学が設置されている地域などによっていずれかのカンファレンスに振り分けられており、1カンファレンスおおむね10大学程度です。
レギュラーシーズン前半は別カンファレンス間で試合を行い、後半は同じカンファレンス内で試合を行うことが多いようです。
レギュラーシーズンで各大学30試合程度行い、その後、選ばれた勝者たちがプレーオフトーナメントに進みます。
プレーオフは3月中旬から始まるのでマーチマッドネスと呼ばれ、このイベントには全米が盛り上がるようです。NCAAトーナメント2024観戦ガイド
ちなみに、Kaggleでは毎年マーチマッドネスの勝敗を予測するコンペが開かれています。
どの大学がどのカンファレンスに所属しているのか
手元には、何月何日にどの大学とどの大学が対戦したのかというデータはありますが、どの大学がどのカンファレンスに所属しているのかわからないとしましょう。
ここであえて、機械学習のクラスタリングの手法を使ってどの大学がどのカンファレンスに所属しているのかを割り出してみましょう。
(300以上の大学をそれぞれどのカンファレンスなのか調べていくのは手間ですので。)
事前情報としてシーズンの後半は同じカンファレンスに所属している大学同士で対戦をするということがわかっているので、手元のデータを対戦日時で半分に区切って後半のデータだけを使うことにします。
カンファレンスの数は32個というのもわかっているので、クラスタリングのモデルはk-meansを使い、32個のクラスタに分けるように指示します。
イメージとしてはカンファレンス1に属するA,B,Cという大学と、カンファレンス2に属するD,E,Fという大学があったとき、A対B, A対C, B対Cという対戦データと、D対E, D対F, E対Fという対戦データがあるので、(A,B,C)と(D,E,F)はそれぞれ同じカンファレンスに属していそうだね、と求めていることになります。
実際には別のカンファレンスの大学と対戦していたり、Division2,3のチームと戦っているようなデータも含まれていますが、結果はかなり明確にクラスタされています。
# グラフを構築
G = nx.Graph()
# DataFrameから対戦データをグラフに追加
for idx, row in df.iterrows():
G.add_edge(row['team1_name'], row['team2_name'])
# 隣接行列を取得
adj_matrix = nx.to_numpy_array(G)
# チームのリストを取得
teams = list(G.nodes)
# k-meansクラスタリングを実行して32個のクラスタに分ける
kmeans = KMeans(n_clusters=32, random_state=0).fit(adj_matrix)
# クラスタリング結果を取得
labels = kmeans.labels_
# クラスタごとのチームを表示
for i in range(32):
print(f'Cluster {i}:', [teams[j] for j in range(len(teams)) if labels[j] == i])
(各クラスタが、実際どのカンファレンスを指しているかはChatGPTに埋めてもらいました。)
ハイメジャー・カンファレンス
さて、各大学がどのカンファレンスに所属するかは求まりました。次はそれら32のカンファレンスがどれくらいのレベルなのかを測ってみましょう。
巷ではハイメジャー(強豪)、ミドルメジャー(中位)、ローメジャー(下位)というくくりがありますが、その定義はあいまいなようです。
各カンファレンスのレベルを測る手法として、そのカンファレンスから何人の選手をNBAに送り込んでいるかを算出し、そのカンファレンスがどの程度のレベルなのか分類しましょう。(毎年NCAAから5,60人程度がドラフトでNBAに入ります。)
では、直近7年分ぐらいのデータを使って、NBAに入団した選手が多いカンファレンスを順に並べてみます。
SOUTH EASTERN
ATLANTIC COAST
BIG 10
BIG 12
PAC 12
BIG EAST
面白いことに、ハイメジャー・カンファレンスと完全に一致しましたね。
ここからはドングリの背比べですが、次に続くカンファレンスを並べてみましょう。
WEST COAST
AMERICAN ATHLETIC
ATLANTIC 10
MOUNTAIN WEST
COASTAL ATHLETIC ASSOCIATION
USA
MISSOURI VALLEY
MID-AMERICAN
ATLANTIC SUN
HORIZON LEAGUE
PATRIOT LEAGUE
THE IVY LEAGUE
こちらもミドルメジャー・カンファレンスとほとんど一致しています。
ちなみに、毎年NBAに進む選手のうち、70~80%の選手がハイメジャー・カンファレンスから、残りがミドルメジャー、ローメジャーからとなっています。
まとめ
富永啓生選手が所属するネブラスカ大がマーチマッドネスに進んだことで、日本でも盛り上がりを見せたNCAAについて書いてみました。
将来NBAで活躍するかもしれないスターの卵たちが所属しているNCAAはとても見ごたえがあります。
今後、NCAAからBリーグに来る選手が増えたら面白そうですね。
弊社では、世界中から良い選手を見つけてくるための選手評価システムを構築しています。
取り組みの詳細やチームからの反響についてはこちらをご覧ください。
また、イークラウドにて株式投資型クラウドファンディングも開催中ですので奮ってご応募ください!
次回もNCAAの記事を投稿します!