はじめに
以前の記事で、NPB順位予測にMarcel法+Stanベイズ回帰を組み合わせたシステムを紹介しました。
今回は、そのチームシミュレーション部分にパークファクター(PF)補正を追加した経緯と、バックテストによる検証結果をまとめます。
はじめての方へ:この記事で登場する用語
| 用語 | 意味 |
|---|---|
| パークファクター(PF) | 球場ごとの得点の入りやすさを数値化したもの。1.0が平均、>1.0で打者有利、<1.0で投手有利 |
| Marcel法 | 過去3年の成績を加重平均して翌年を予測するシンプルな手法。重みは直近ほど高い(5:4:3) |
| ベイズ予測(Stan) | データから確率分布を推定し、不確かさも含めて予測する統計手法 |
| ピタゴラス勝率 | 得点(RS)と失点(RA)の比率からチームの理論勝率を計算する式。RS^1.83 / (RS^1.83 + RA^1.83)
|
| Monte Carloシミュレーション | 乱数を使って大量の試行を繰り返し、確率分布を推定する数値計算手法 |
| 80% CI | 80%信頼区間。「実際の値がこの範囲に収まる確率が80%」という予測幅 |
なぜPF補正が必要か
Marcel法は「過去3年の成績の加重平均」で選手を予測します。このとき、各選手の成績にはホーム球場の影響が混入しています。
例えば:
- バンテリンドーム(中日)のPF_5yr = 0.844 — 得点が入りにくい投手有利球場
- エスコンフィールド(日本ハム)のPF_5yr = 1.147 — 得点が入りやすい打者有利球場
バンテリンの投手は「本当に優秀」な部分と「球場のおかげ」が混在した成績を残しています。これをそのままチームのRS(得点予測)・RA(失点予測)に使うと、バンテリン所属チームのRA が過小評価されます。
この偏りを補正するのがPF補正です。
パークファクターの定義・算出方法は別記事で詳しく解説しています。
補正方法
# PFの定義
# PF = ((ホーム得点+失点) / ホーム試合数) / ((アウェイ得点+失点) / アウェイ試合数)
# PF_5yr = 改修年ブレイクポイントを考慮した5年移動平均
# 補正式
pf_factor = (PF + 1.0) / 2.0
rs_adjusted = rs_raw / pf_factor # 予測得点をニュートラル球場基準に
ra_adjusted = ra_raw / pf_factor # 予測失点をニュートラル球場基準に
(PF + 1.0) / 2.0 は「ホームとアウェイの平均」です。選手はホームとアウェイを半々でプレーするため、Marcel予測値に含まれるパーク効果は (PF + 1) / 2 として取り出せます。
使用データ
-
PFデータ: npb-prediction リポジトリの
npb_park_factors.csv(2016-2025年、12球団) - 選手成績: baseball-data.com + npb.jp(2015-2025年)
- バックテスト期間: 2018-2025年(8シーズン、96チーム-年度)
2025年 PF_5yr 一覧
| 球場 | チーム | PF_5yr |
|---|---|---|
| エスコンフィールド | 日本ハム | 1.147 |
| 神宮球場 | ヤクルト | 1.129 |
| 横浜スタジアム | DeNA | 1.102 |
| ZOZOマリンスタジアム | ロッテ | 1.097 |
| PayPayドーム | ソフトバンク | 1.007 |
| マツダスタジアム | 広島 | 0.996 |
| 東京ドーム | 巨人 | 0.981 |
| ベルーナドーム | 西武 | 0.962 |
| 京セラドーム | オリックス | 0.943 |
| 甲子園球場 | 阪神 | 0.942 |
| 楽天モバイルパーク | 楽天 | 0.908 |
| バンテリンドーム | 中日 | 0.844 |
バックテスト結果
PF補正あり・なしで、同じ乱数シードを用いて2018-2025年の順位シミュレーションを実行し比較しました。
総合比較
| 指標 | No PF | With PF | Δ |
|---|---|---|---|
| MAE(勝利数) | 6.41 | 6.41 | ±0.00 |
| Bias(勝利数) | +2.69 | +2.70 | +0.01 |
| 80% CI カバー率 | 86.5% | 87.5% | +1.0% |
年度別詳細
| 年度 | MAE(No PF) | MAE(With PF) | Δ | 80% CI カバー率 |
|---|---|---|---|---|
| 2018 | 6.18 | 6.18 | +0.00 | 100.0% |
| 2019 | 3.90 | 3.90 | +0.00 | 100.0% |
| 2020 | 6.27 | 6.28 | +0.01 | 83.3% |
| 2021 | 10.33 | 10.33 | +0.00 | 50.0% |
| 2022 | 5.13 | 5.12 | -0.01 | 100.0% |
| 2023 | 6.88 | 6.89 | +0.01 | 91.7% |
| 2024 | 6.69 | 6.71 | +0.02 | 83.3% |
| 2025 | 5.90 | 5.90 | +0.00 | 91.7% |
| 平均 | 6.41 | 6.41 | ±0.00 | 87.5% |
考察
MAEはほぼ変わらない。これは予想の範囲内です。
PF補正はRS・RAを同時に補正するため、チーム勝利数の期待値(RS/RA の比率)への影響が相殺されやすい構造です。特にPF_5yrは5年移動平均なので年ごとの変動が小さく、補正幅も限定的です。
一方、80% CI カバー率が86.5% → 87.5% に改善しています。球場効果を明示的に除去することで予測分布の信頼性がわずかに向上したと考えられます。
**2021年のカバー率50%**はPF補正とは無関係で、ヤクルト・オリックスの同年最下位→優勝という例外的な事象によるものです(別記事で詳述)。
今後の影響:2026年改修球場
バンテリンドームと楽天モバイルパークが2026年に改修予定です。
| 球場 | 現在のPF_5yr | 改修内容 | 見込み |
|---|---|---|---|
| バンテリンドーム | 0.844 | HRウイング設置 | PF上昇の可能性 |
| 楽天モバイルパーク | 0.908 | フェンス前方移設 | PF上昇の可能性 |
これらの球場が打者有利に転じると、PF補正の効果がより顕在化する可能性があります。2025年時点のPF_5yrはまだ改修前の実績が大部分を占めているため、改修後の実データが蓄積されるにつれて予測精度への影響も出てくると考えられます。
2026年予測(PF補正済み)
| セ・リーグ | P(優勝) | P(CS進出) | 予測勝利数 | 80% CI |
|---|---|---|---|---|
| 阪神 | 78.2% | 97.8% | 80.6 | [75.1, 86.5] |
| 巨人 | 12.7% | 78.4% | 74.4 | [69.7, 79.4] |
| DeNA | 4.1% | 52.4% | 71.8 | [67.1, 76.7] |
| 広島 | 3.3% | 38.1% | 70.5 | [65.4, 75.7] |
| 中日 | 1.8% | 30.8% | 69.8 | [65.0, 74.9] |
| ヤクルト | 0.0% | 2.5% | 64.2 | [60.2, 68.6] |
| パ・リーグ | P(優勝) | P(CS進出) | 予測勝利数 | 80% CI |
|---|---|---|---|---|
| ソフトバンク | 55.2% | 93.8% | 77.6 | [72.3, 82.8] |
| 日本ハム | 23.8% | 81.5% | 74.7 | [69.6, 80.1] |
| オリックス | 15.4% | 74.0% | 73.6 | [68.8, 78.6] |
| 西武 | 5.2% | 39.8% | 70.5 | [65.7, 75.6] |
| ロッテ | 0.3% | 6.8% | 66.0 | [61.7, 70.5] |
| 楽天 | 0.2% | 4.2% | 65.2 | [61.0, 69.6] |
N=10,000 モンテカルロシミュレーション。パークファクター(PF_5yr)補正済み。
まとめ
| 項目 | 結果 |
|---|---|
| MAE改善 | なし(±0.00) |
| CI カバー率 | +1.0%(86.5% → 87.5%) |
| 概念的正確性 | ✅ Marcel予測値から球場効果を除去 |
| 現時点の採用判断 | ✅ 取り込む(悪化なし、改修後に効果増大の見込み) |
PF補正をモデルに組み込むことで「MAEは変わらないが、予測分布の信頼性がわずかに改善し、概念的にも正しい」という結果になりました。
現在のPF_5yrは過去5年の移動平均のため変化が緩やかですが、バンテリンや楽天のように極端なPF値を持つ球場でフェンス改修が起きたとき、この補正の重要性が高まると考えられます。
GitHub