FIFAワールドカップ2026(カナダ、メキシコ、アメリカ)が始まりました!
サッカーが好きな人も、普段はあまり見ない人も、日本代表の試合はなんとなくテレビの前で盛り上がってしまうのではないでしょうか。
実はサッカーとデータ分析は親和性が高く、様々なデータが公開されています。
今回はW杯をもっと楽しめるように、W杯をデータで楽しむ視点をまとめてみました。
まず「ブラウザで今すぐ見られるサイト」、次に「もっと深くデータを触りたい人向けのAPI・データセット」という順で紹介します。
まずはブラウザで見られるサイトから
登録不要、コードも不要。ブラウザを開くだけでリッチなデータが見られるサイトです。
Sofascore
スタッツ系サイトの中でもUIが群を抜いて優れています。
試合ごとのデータはもちろん、 選手ひとりひとりに1〜10の評価スコア がリアルタイムでついています。「あの選手、今日どうだった?」が数値で見られるのが面白いです。
見られる主なデータはこのあたりです。
- 試合スタッツ:ポゼッション、シュート数・枠内率、パス成功率、ファウル数、コーナー数
- 選手スコア:各選手のパフォーマンス評価(10点満点)
- ヒートマップ:選手が試合中どのエリアで動いていたかの分布図
- パス図:誰が誰にパスを出したかのネットワーク
- xG(ゴール期待値):時系列グラフで、試合の流れとともに可視化
スマホアプリもあり、試合を見ながら横でチェックするのにちょうど良いです。
Transfermarkt
移籍市場の情報に特化したサイトで、 選手の市場価値(推定移籍金) が見られることで有名です。
「あの選手、いくらくらいの価値なんだろう」がわかるのはもちろん、チームごとの総市場価値も出るので「チームの総市場価値ランキング」なんかも見られます。
さらにこんなデータも充実しています。
- 選手の出場歴:何歳の時にどのクラブでどれだけ出場したか
- 怪我の履歴:過去の離脱歴と期間
- 代表歴:W杯・欧州選手権などの出場試合数と得点
- 移籍の経緯:いつ・どこから・いくらで移籍したか
日本語対応している のも嬉しいポイントです。
Whoscored
Sofascoreと並ぶスタッツ系の定番サイトです。こちらもUI・データ量ともに充実しています。
特徴的なのが 選手評価のアルゴリズムが公開されていない独自スコア です。パス・シュート・タックル・インターセプトなどを複合的に評価しているとされており、「Whoscoredのレーティングが高い選手は実際に良い選手が多い」とサッカーファンの間では信頼されています。
また 戦術的なチャートが豊富 で、チームのフォーメーション分析や、どのゾーンでボールを奪われているかといった図が見やすく整理されています。
もっとデータを触りたくなったら
ブラウザでデータを眺めているうちに「自分でも分析したい」「過去データと比較したい」となってくるのが人情というものです。そういう人向けのAPIとデータセットを紹介します。
今はAIで誰でも気軽にデータ分析できる時代なので、分析を進めるとサッカーをよく深く楽しめるかもしれません。
football-data.org
無料プランから使えるAPIです。W杯の試合結果・順位表・スコアラーといった基本的なデータをJSON形式で取得できます。
無料プランでも主要な試合データは取れるので、「試合結果をスプレッドシートに自動入力したい」「グループリーグの順位表を毎日自動更新したい」といった用途にすぐ使えます。
Statsbomb Open Data
サッカーデータ界隈ではかなり有名な企業が、過去大会を含む試合データをGitHubに無料公開しています。
「誰が・いつ・どこで・何をしたか」がすべてイベント単位で記録されており、シュートの座標・パスの方向・プレッシャーをかけた位置まで取得できます。
xGの算出に使われるような詳細データもここにあります。
他のAPIと違い、「ある試合の全イベントログ」を丸ごと取れるのが特徴です。「日本のゴールシーンを全部抽出する」「試合を通じたプレッシング強度の変化を見る」といった分析ができます。
Kaggle:FIFA Football World Cup Dataset
データサイエンス・機械学習コンペのプラットフォームであるKaggleには多数のW杯データセットがありますが、その中でも 1930年〜2022年の全大会を網羅したこのデータセット は特にオススメです。
試合結果・勝ち上がり記録・得点王等が収録されています。
CSVで手軽にダウンロードできるので、「先制したチームの勝率は?」「PK戦になりやすいラウンドは?」「W杯の最多得点チームは?」といった歴史的な検証をすぐ始められます。
データで見ると「あの試合」が違って見える
サイトを紹介したところで、実際にこういう楽しみ方ができるという例を少し紹介します。
「負けたけど内容は良かった」を数値で確認する
SofascoreのxG(ゴール期待値)グラフを見ると、スコアだけでは見えなかった内容の差がわかります。
サッカーには xG(Expected Goals:ゴール期待値) という指標があります。
放たれた1本のシュートがゴールにつながる確率を0から1の数値で表した統計指標で、数値が高いほど得点する可能性が高い(決定機である)ことを示します。試合合計では複数シュートの積み上げになります。
1-2で負けた試合でも、例えば xGが日本2.1 vs 相手0.7 だったとしたら。 チャンスの量と質では圧勝していたのに、運が悪かったな という話になります。逆に「xGで負けていたのに点数は勝った」なら、かなりラッキーな勝ちです。
「内容は良かった」「内容は悪かった」という解説の言葉が、数値でちゃんと確認できます。
市場価値で見るW杯の「格差」
Transfermarktで各チームの総市場価値を比べると、グループリーグの「下馬評」が数値でよくわかります。ランキング上位チームと下位チームの市場価値差が10倍以上になることも珍しくありません。
その中で日本がどう戦っているかが見えると、また応援の仕方が変わってきます。
過去データでジンクスを検証する
Kaggleの歴代データを眺めていると、いくつか興味深いことに気づきます。
たとえば「グループリーグ首位通過チームの優勝確率」「大会の平均得点は年々上がっているのか」「ホスト国は実際に有利なのか」といった疑問を、数十年分のデータで検証できます。
W杯のジンクスを語る前に、まずデータを確認する癖がつくと楽しいです。
さいごに
W杯の楽しみ方は人それぞれですが、データを見始めると 試合の見え方がガラッと変わります 。
「なんで決まらないんだ!」がxGを見ると「まあ確率的にはしょうがないか…」になります。
「なんで負けるんだ!」がデータを見ると「内容では完全に勝ってたよ」になることもあります。
感情で楽しむことと、データで楽しむことは矛盾しません。
むしろ両方あった方が、試合後の語りが圧倒的に深くなります。
「なんでそんな冷静に見てるの?」と言われることもありますが、これはこれで楽しいんです。
エンジニアの性なので、仕方ないですよね。
以上です。誰かの参考になれば幸いです。