概要
こんにちは、anaです。今回はMoist所属Light選手がよく行う袖まくりについて分析します。Light選手の袖まくりはポップオフに通ずるものがあり分析すること自体ナンセンスではあると思いますがご了承ください。また、今回は多重ロジスティック回帰分析(multivariate logistic regression analysis)という多変量解析の手法のうちの一つを用います。また、今回の記事はnoteで書いたものをqiitaで書いたものです。
準備(データ収集)
Light選手の袖まくりを分析するにあたって、以下のような表を作成しました。今回は元データとして先日行われたSmash Ultimate Summit 4 | Singles BracketのLight選手の5試合を用いました。袖まくりの条件を探るために1セットごとのLight選手の1ストックあたりの平均被撃墜%、相手選手の1ストックあたりの平均被撃墜%、Light選手の1ストックあたりの平均被撃墜時間、相手選手の1ストックあたりの平均被撃墜時間を集計しました。個人的にLight選手は早く撃墜されると袖まくりをしているイメージがあったからです。Light選手の1ストックあたりの平均被撃墜%のような数値として表現され、数値の大きさや間隔(差)に意味があるデータを量的データ(quantitative data)と呼びます。
また、今回のような袖まくりという現象をデータとして扱うためにダミー変数(dummy varuable)を用います。0または1をとる変数に置き換えることで数量化することができます。今回だと袖まくりをしているセットは1を、袖まくりをしていないセットは0を入れています。ここで袖まくりのデータは本来数値にはできないため質的データ(qualitative data)と呼ばれ、袖まくっているかまくっていないかという現象の違いを区別しています。まとめると袖まくりは本来数値に表せない質的データですが、ダミー変数を通して0か1の変数に数量化しています。
実際に観測した元データは以下のとおりです。左から順に試合、試合のセットカウント、袖まくりの有無、Light選手の1ストックあたりの平均被撃墜%、相手選手の1ストックあたりの平均被撃墜%、Light選手の1ストックあたりの平均被撃墜時間、相手選手の1ストックあたりの平均被撃墜時間です。
ここで、簡単に多重ロジスティック回帰分析の説明します。まず、今回の分析の目的はLight選手の袖まくりの条件を探ることです。よって、Light選手の袖まくりに関係するデータがあればそのデータを使ってLight選手の袖まくりの確率を式に落とし込むことができます。つまり、袖まくりに関係するデータから袖まくりの確率を予測することができます。
より詳しい多重ロジスティック回帰分析は下記で説明します。
多重ロジスティック回帰分析
多重ロジスティック回帰分析は複数の量的な説明変数から質的な目的変数を予測する際に用いる多変量解析の手法のうちの一つです。複数の量的な説明変数とはLight選手の1ストックあたりの平均被撃墜%、相手選手の1ストックあたりの平均被撃墜%、Light選手の1ストックあたりの平均被撃墜時間、相手選手の1ストックあたりの平均被撃墜時間であり、質的な目的変数とはLight選手の袖まくりです。
多重ロジスティック回帰分析は説明変数が複数ある場合の名称であって、説明変数が1つの場合は単にロジスティック回帰分析と呼ばれます。多重ロジスティック回帰分析が他の回帰分析の手法である単回帰分析や重回帰分析とは異なる点はパラメータ(式の係数)の推定に最尤法を用いることです(単回帰分析や重回帰分析は最小二乗法)。
ロジスティック回帰分析では元データをシグモイド曲線(sigmoid curve)に当てはめる。シグモイド曲線では、Light選手が袖をまくる確率p=0.5のときが曲線の変曲点となります。下記の式をロジスティック回帰式と呼びます。
pはLight選手が袖をまくる確率であり、x1はLight選手の1ストックあたりの平均被撃墜%、x2は相手選手の1ストックあたりの平均被撃墜%、x3はLight選手の1ストックあたりの平均被撃墜時間、x4は相手選手の1ストックあたりの平均被撃墜時間です(x1~x4は説明変数)。ここで、a1~a4、bは未知のパラメータであり、推定する必要があります。なお、ロジスティック回帰式の導出にはオッズの考え方が背景にあります。オッズとは「ある事象が生起する確率と生起しない確率の比」です。Light選手が袖をまくる確率をpとすると、Light選手が袖をまくらない確率は1-pとなり、Light選手の袖まくりの有無に関するオッズは下記のとおりになります。このオッズの式からロジスティック回帰式が得られます。
ロジスティック回帰式に含まれる未知のパラメータであるa1~a4、bの推定には最尤法を用います。最尤法は尤もらしさの度合いを表す尤度を最大にしてパラメータを推定する方法と定義されます。実際には、尤度に対数を取った対数尤度(log likelihood)を足し合わせた対数尤度関数(maximum likelihood function)を最大化して未知のパラメータであるa1~a4、bの推定します。
今回は回帰式をExcelを用いて導出しました。しかし、Excelにはロジスティック回帰分析の機能が標準では備わっていないため、「セル計算」と「ソルバー機能」を利用しました。解析結果は以下のとおりです。
解析結果から得られた回帰式は上式のとおりです。導出した回帰式について統計的検証を実施して、得られたパラメータがたまたま推定されたものではないか確認する必要があります。尤度比検定(likelihood ratio test)により統計モデルの妥当性を判断します。解析結果のp値を見ると0.435438であり、回帰式は信頼できないことが分かります。p値は得られた回帰式が帰無仮説(今回なら得られた回帰式が信頼できないこと)が起こる確率であるため、p値が大きいほど、回帰式が信頼できないことになります。今回はp値が0.435438とかなり大きいため、回帰式が信頼できない確率が約43%であり、信頼できないことになります。通常はp値が0.05(5%)なら信頼できると考えられています(専攻分野や個人にもよる)。また、a1~a4とbに関してはa3以外は0となったため回帰式では省略しています。もし、今回の回帰式が信頼できるならLight選手の1ストックあたりの平均被撃墜時間からLight選手の袖まくりの確立pが予測できます。
まとめ
今回はLight選手の袖まくりの多重ロジスティック回帰分析を用いて解析しました。解析結果は回帰式が信頼できないため、Light選手はロジックよりも感情で袖まくりをしているのかもしれません。
改善点
今回の解析の改善点としては、説明変数を他のものにする(例えば、相手選手との戦績等)ことによって回帰式が信頼できるようになるのかもしれません。
また、袖まくりという現象自体時系列であるため、時系列解析の回帰分析等を行えば結果は異なるかもしれません。
あとがき
個人的にはもう少しいい線行くと思ったのですが、残念ながら回帰式が信頼できませんでした。今回は初めて選手の分析をしましたが、動画を見てその数値をまとめる作業がとても大変でした。他の方がどのようにして動画から数値をまとめるのか気になりました。今後、qiitaとnoteの併用でスマブラ分析をしていく予定です。よろしくお願いいたします。
おまけ
参考文献