はじめまして。りょくちゃといいます。
物心がついた頃から、ずっとサッカーを観てきました。
人生が狂ってしまうくらい没頭してしまったので、さすがに最近は少し自重しています。
それと同時に、世の中にあふれる統計的な性質を見るのが好きでした。
そんな自分が、常々気になって試してきたことを、これから少しずつ紹介していこうと思います。
サッカーを"確率"で観る
サッカーを観ていると、直近のCL準決勝バルセロナvsインテルのように点の多いエキサイティングな試合もあれば、互いに一歩も譲らないような、引き締まった展開になる試合もあります。こうした得点のばらつきに、何か規則性はあるのでしょうか?この問いに答えるため、サッカーの得点がどのような確率モデルに従うかを考えてみましょう。
得点はしばしば予期せぬタイミングで突然生まれます。逆サイドでパスが回っていたはずなのに、10秒後にはカウンターからゴールが決まっている。そんな体験は多くの人にとって馴染みがあるはずです。
つまり、短いタイムスケールで得点が決まるわずかな確率が常に存在していると考えられます。この考えをもう少し具体化するために、次は得点の発生を時間軸でモデル化してみます。試合全体の時間を$T$として、これを$n$分割します。一区間あたりの時間$\Delta T$は、
\Delta T = \frac{T}{n}
です。ここで少し大胆ではありますが、各区間で得点が決まる確率は常に一定で、
p=\lambda \Delta T
であると仮定します。$\lambda$は単位時間当たりの得点確率です。そうすると、試合全体での総得点数が$k$となる確率$P_n(k)$は、
P_n(k)={}_n C_k\ p^k\ (1-p)^{n-k}
となりますね。詳細な計算は省きますが、$n\rightarrow \infty$の極限をとると、この確率は次のように収束します:
P(k) := \lim_{n\rightarrow \infty}P_n(k) = \frac{(\lambda T)^ke^{-\lambda T}}{k!}\ 。
これはポアソン分布と呼ばれるものです。$\lambda T$は1試合あたりの平均得点数ですので、これがわかればある試合における得点数の確率分布を計算することができます。
実際に調べてみる
サッカーの得点数が実際にポアソン分布に従うのか調べてみましょう。
今回用いるデータは、2003年から2022年におけるJ1リーグの試合結果です。以下のサイトからデータをいただきました。
まずは、ホームチームとアウェイチームの得点を区別せず、1つの得点データとして集計しました。その結果が下図です。水色は実際に観測された得点数の分布、オレンジ色はその平均得点数から導かれるポアソン分布です。
ポアソン分布が実データをよく再現しています。一方で、0点や2点付近にはわずかなずれがみられます。これは単なる統計的な誤差の可能性もありますが、ポアソン分布では捉えきれない細かな要因が影響している可能性の方が高いと考えられます。
次に、ホームチームとアウェイチームの得点をそれぞれ分けて集計しました。
その結果を下図に示します。青色がホームチーム、赤色がアウェイチームの得点数の確率分布を表しています。平均得点数$\lambda T$はそれぞれ、ホーム$1.461$、アウェイが$1.265$です。ホームアドバンテージと呼ばれるような外的な要因の存在を示唆しています。
下図はホームの得点のみを集計したものです。0点と2点のところにずれが確認できます。
アウェイの得点のみを集計したものです。かなりポアソン分布に一致しています。
このことから、ホームアドバンテージは「失点を防ぐ」といった守備面での効果というよりも、攻撃面における得点力の向上として表れている可能性があると考えられます。戦術的な積極性やスタジアムの雰囲気といった要素が、ホームチームの攻撃機会や決定力に好影響を与えているのかもしれません。一方で、アウェイではそうした要素が乏しく、より確率的に得点が生じていると解釈することもできます。
もちろんこれはあくまで一つの可能性に過ぎず、他の要因やチームごとの特性を考慮すれば異なる見方も成り立ちます。こうした仮説を本格的に検証するには、時間帯ごとの得点傾向のような、より詳細な試合データを用いて分析する必要がありそうです。(個人でやるのはあまりにも大変そうなのでさすがに断念しました。。。)
まとめ
今回は、サッカーの得点数がポアソン分布に従うことを紹介しました。次回以降はこのポアソン分布を用いて、サッカーの試合結果を予想していきます。