その1: 選手の身長と体重の関連性を考察してみる
「ラグビーワールドカップ2019」は、南アメリカの優勝で幕を閉じました。ご存知の通り、日本は南アフリカに敗れはしましたがトップ8進出を果たし、日本で開催したこともあり、にわかファンも巻き込んで日本中が大熱狂しました。私自身も、今回のワールドカップ以前は、たまにテレビをつけてラグビー中継をやっていれば何となく見る程度でしたが、今回のワールドカップでラグビーの面白さを再認識し、日本戦のすべての試合、他の国々のいくつかの試合をテレビで観戦しました。
いろいろな試合を見ていると、小柄な選手、大柄な選手、非常に背が高い選手とさまざまな体格の選手がいるなあと感じました。ラグビーには様々なポジションがあり、ポジションごとに主な役割が異なってきますので、当たり前かもしれません。ただ、ここでデータ分析家の血が騒ぎだします。選手の身長や体重といった体格のデータは、ワールドカップの公式ホームページから取得できますので、地道にデータ化し、身長と体重の関係を調べてみることにしました。
今回はワールドカップでトップ8に進出したチーム(国)を対象とし、選手の身長と体重のデータを可視化、分析しました。以下の記事において太字で示している箇所は、今回のラグビーの分析に限らず、データ分析において非常に重要なことですので、ご参考になれば幸いです。
1チームの登録選手は31名です。下図は、8チームすべての身長(横軸)と体重(縦軸)をプロットした散布図と上側、右側にそれぞれ身長、体重に対するヒストグラムを表示しています。
ラグビー選手でなくても、一般的に人の身長と体重にはある程度の相関(関連性)があります。身長が高い人は体重が重い傾向があり、上の散布図を見ても身長と体重にある程度の相関があることがわかります。
身長のヒストグラムを見ると、180cm~190cmの間に多くの選手が属していることがわかりますが、体重のヒストグラムをみると、90kg~100kgと110kg~120kg あたりに多くの選手が属しており、**ピークが複数ある分布のように感じます。ピークが複数あるヒストグラムでは、データに複数の属性が混ざっている可能性があります。**例えば、一般の男性と女性の体重に関するヒストグラムを描くと、今回のような複数のピークがあるグラフになるかもしれません。今回のラグビー選手はみな男性ですが、体重に関しては複数のピークがあることに注目です。
少し分析を進めましょう。下図は、散布図上に確率楕円(水色)を描き、相関係数(左上のr)を求めたものです。
確率楕円は、2つの変数間の相関関係を調べるのに役立つ図です。2変数間の相関が高い場合(相関係数では1または-1)は、楕円は対角線方向に長くなります。逆に2つの変数に相関がない場合(相関係数では0)の場合、楕円は円に近い形になります。上の確率楕円は右上がりの細長い楕円形であり、左上に表示されている相関係数をみると0.608となっているので、身長と体重に強い相関があることが分かります。
さらに、確率楕円は、外れ値を調べる目的でも使われます。楕円の外にあるデータは2つの変数の相関を考慮したときの外れ値と考えられます。上図では、左下と右上のいくつかの外れ値があることが分かります。
分析結果を様々な属性で分けると、今まで分からなかった新たな発見に出会うことがあります。私のデータ分析の経験において、難しい統計解析の手法を使わずとも、属性で分けて分析してみることで、問題に寄与する要因や大体わかってしまうことが多々ありました。
ラグビーでは、ポジションをFW(フォワード)とBK(バックス)で分けることができ、FWは主にスクラムを組む、ラインアウトでボールを奪いあう役割があり、BKは主にすばやい動きで相手をかわしトライを奪う役割があります。そこで、今まで紹介した散布図をFWとBKで分けてみます。
やはり、FWとBKでは分布が大きく異なることが分かります。FWは、BKに比べ身長も体重も値が大きいところにデータが密集しています。しかし相関係数を比べると、FWの相関係数は0.324とそんなに高くないですが、BKの相関係数が0.757と高くなっており、確率楕円の形状からも相関の違いが見て取れます。
先ほど、体重のヒストグラムで複数のピークがありましたが、次のように、FWとBKで分けてヒストグラムを描くとその理由が分かります。
さらにFW、BKの中でも細かくポジションに分けることができますが、ポジションに関連する話は、次回のブログで紹介します。
さらに、散布図をチームごとに分けてみます。
チームごとの体格の特徴が良く分かります。日本は全体的にプロットが左下に位置していますので、他のチームに比べて小柄であることがわかり、BKの相関は0.909と非常に高くなっています。
日本は南アフリカと対戦して敗れましたが、これら2チームの体格を比較してみるとどうでしょうか。次の図は、日本と南アメリカに絞り、FWとBK別に散布図、確率楕円を描いたものです。赤色が日本、緑色が南アフリカを示します。
確率楕円を見ると、BKに対しては似ている形状をしていますが、FWに対しての結果が特徴的です。
南アフリカの楕円は、日本の楕円を覆っています。つまり日本のFWは似通った体格の選手が集まっていますが、南アフリカのFWは小さい体格から大きい高くまで幅広い選手が集まっていることが分かります。
BKの確率楕円とともに、小柄な体格で活躍した選手を見ると、日本の流選手や田中選手でも日本の確率楕円の中に入っており、南アフリカのコルビ(Kolbe)選手、デクラーク(De Klerk) 選手も南アフリカの確率楕円の中に入っていることが分かります。チーム間でみると、これらの選手は特別に小柄な存在とは言えないようです。
今回はワールドカップ出場選手の体格(身長、体重)をFW/BK別、チーム別に比較してみましたが、体格がゲームの結果と関連していたのかどうか? 次のブログで考察してみます。
付記:
今回ブログで紹介した分析結果の一部は、以下のJMP Publicのページで参照できます。ここでは、データにフィルタをかけて、特定のチーム間の身長、体重を比較することができます。
Rugby WC 2019: Did players height/weight affect performance?
以下は、ワールドカップの対戦結果をさまざまな角度で可視化したページです。こちらもフィルタ機能を使い、様々な角度で結果を考察できます。
Rugby World Cup 2019: Visualizations
■ さあ始めよう!
JMPの全機能を30日間試せるトライアル版で、データからさらなる情報を導き出せることを実感してください。
さあ始めましょう。
ダウンロードはコチラ!
■ JMPについて
JMP(ジャンプ)は世界中のエンジニア、データアナリストに選ばれているインタラクティブで可視的なデータ分析ツールです。