熱戦が繰り広げられていたパリオリンピックが閉会しました。猛暑が続いたため、屋外には出ずに屋内でオリンピック観戦を楽しんでいた方も多かったことでしょう。
2週間程度のオリンピックでしたが、日本は合計45個のメダルを獲得し、海外大会のオリンピックでは最多の獲得数となりました。とはいっても、前回の東京オリンピックで日本が58個のメダルを獲得しています。
今回獲得したメダル数45個は妥当な数だったのでしょうか? この点を経済面から考えてみます。
かなり前のことですが、「マンキュー 入門経済学」という名著を使って経済学を学んでいた際、この本の中に「オリンピックで勝つのは誰か」という題名のコラムがあり、非常に印象に残っています。
このコラムでは、ある国が獲得するオリンピックのメダル数はその国のGDP(国内総生産)や人口が説明要因となると述べています。経済的に豊かな国ほど多くの才能を持った選手の潜在能力を高めることができ、また、人口が多いほど能力が高い選手が出てくる可能性が高いからです。
さらに、開催国であることも要因となり得るとされています。地元で戦うことの有利さからです。 前述の通り、3年前に開催した東京オリンピックでは、日本が過去最高の58個のメダルを獲得したのは、地元開催のメリットを享受できたからだと思われます。
本ブログでは、今回のパリオリンピックにおける各国のメダル数を、その国の人口、GDP、開催国(フランスか否か)で説明する回帰モデルを作成してみます。作成されたモデルの説明力を評価し、モデルによる予測値よりも多くのメダルを獲得した国について考察します。
メダル数を予測するモデル
回帰モデルにおいて、目的変数と説明変数を以下のように設定します。
目的変数:各国のメダル総数(金、銀、銅の合計)
説明変数:各国のGDP(ドル)、人口、開催国(フランスであれば1、その他の国であれば0とするダミー変数)
説明変数となるGDP(ドル)や人口のデータは、世界銀行のオープンデータを中心に取得しています。なお、北朝鮮や難民選手団のデータは取得できないので、分析対象から除外しています。
※メダルを獲得していない国も含めて解析すべきですが、今回はメダルを1つでも獲得した国を対象としています。
JMPで次のようなデータテーブルを作成しました。オレンジ色の列が目的変数、黄色の列が説明変数となります。
人口、GDPについては常用対数変換を行っています。「Host Country」は、フランスであれば1、その他の国であれば0の値をとる連続尺度の列です。
目的変数のメダル総数についてヒストグラムを描くと、右に裾を引く分布になっています。そこでメダル総数をカウントデータとみなし、ポアソン分布や負の二項分布(ガンマポアソン分布)をあてはめ、適合度を比較しました。
あてはめた曲線やAICcから、 負の二項分布の方がポアソン分布より良くあてはまっていることがわかります。負の二項分布は過分散(分散が平均より大きいデータ)をモデル化するのに適しており、今回のデータに合致しています。
Yに負の二項分布を仮定した回帰モデルのあてはめ
Yが負の分布に従うと仮定した、線形回帰モデルをあてはめます。期待値E(Y) = μ、分散 Var(Y) を以下の式でモデル化します。
log (μ) = β0 + β1 *log10(Population) + β2 *log10(GDP($)) + β3 * (Host Country)
Var(Y) = μ + σ μ^2 (σは過分散パラメータ)
このモデルは、JMP Proの「一般化回帰」によりあてはめることができます。 「モデルのあてはめ」で、右上の手法を「一般化回帰」、分布を「負の二項」に設定し、Yとモデル効果を指定して実行します。
「log10(Population)」係数が-0.263487とマイナスになっています。「予測プロファイル」のレポートからもわかりますが、このモデルでは人口が多いほど、メダル総数が少なくなることを示しています。これは 「人口が多いほど能力が高い選手が出てくる可能性は高い」という考えを覆す結果です。
①人口、GDP、開催国で説明するモデル
モデル作成の際、変数選択してみたらどうでしょう。「一般化回帰」では、推定法としてLasso(オーバーフィットを防ぎながら変数選択をする手法)を選択できるので、この方法でモデルをあてはめてみます。
あてはめた結果としてlog10(Population)の係数は0に収縮され、人口はメダル数を予測する変数としては役に立たないと判断されました。除外された結果、開催国の項が高度に有意(p値 = 0.0009)となりました。
人口をモデルに含めたモデル(①)、人口を除いたモデル(②)を比較しました。AICcやBIC、一般化R2乗の統計量はほとんど同じであり、どちらのモデルが良いかを結論づけるのは難しいです。
このような場合、現実と照らし合わせ解釈ができるモデルを選択するのも一つの方法です。人口を除いたモデル(②)は、R2乗の値から、GDPと開催国という2つの変数だけでメダル数の約65%を説明できています。
メダル数を決める要素として、他にもスポーツを推奨する文化や突出した選手、メダルが取りやすい種目が競技として採用されているかなど、もっと多くの要因が絡んでいるはずです。それなのに、人口と開催国の2つの変数だけである程度説明できる結果は興味深いです。
②のモデルに対し、フランスのGDPを入力した予測プロファイルを示します。
これより、フランスのメダル総数の予測値は51.5です。実際にフランスは64個のメダルを獲得したため、経済状況、開催国のメリットを加味しても、それ以上のパフォーマンスを発揮したと言えるでしょう。
②のモデルについて、「実測値と予測値のプロット」のレポートを示します。縦軸が実測値、横軸が予測値となるので、グラフ上の線(実測値と予測値が一致する線)より上側にある国は予測を上回った国、下側にある国は下回った国です。(Y軸、X軸とも対数軸にしています。)
日本は、予測値27.2個に対し45個のメダルがとれたので、大きく予測を上回っています。ただし、メダル獲得数上位の国の多くは予測値より実測値が大きく上回っており、経済指標の一つであるGDPだけでは説明できない何らかの要因があるように感じます。
4年後のロサンゼルスオリンピックでは、今回もメダル数が最多のアメリカが、開催国としてのメリットを活かしてどれくらい多くのメダルを獲得するのでしょうか?
by 増川 直裕(JMP Japan)