@maskot1977(Ikemen Mas Kot)

p値が出ない！データ数と変数数の関係を見直すOLS入門

Posted at 2025-07-07

user:

model = sm.OLS(y, X).fit() 
pval = model.pvalues.get()

を使ってpvalueを求めようとしましたがNoneという結果が返ってきました。対策を教えてください。

assistant:

model.pvalues.get() を使って p値（p-value）を取得しようとして None が返ってくるのは、get() メソッドの使い方が適切でないためです。

✅ 対策：正しい方法で p値を取り出す

model.pvalues は pandas.Series オブジェクトです。そのため、.get() ではなく、次のように インデックス（例: 変数名）を指定して取り出すのが一般的です。

import statsmodels.api as sm

# データ例（適宜置き換えてください）
X = sm.add_constant(X)  # 定数項の追加
model = sm.OLS(y, X).fit()

# 全てのp値を確認
print(model.pvalues)

# 特定の変数（例: 'x1'）のp値を取り出す
pval = model.pvalues['x1']
print(pval)

❌ よくある間違い

pval = model.pvalues.get()

これは .get() に引数を指定していないため、None を返します。.get() は dict や Series で特定のキーを指定して安全に値を取得するメソッドなので、引数なしで使うと意味がありません。

まとめ

全体を見たい場合： model.pvalues をそのまま使う
特定の変数のp値が欲しい場合： model.pvalues['変数名'] または model.pvalues.get('変数名') を使う

必要であれば、model.summary() を使って結果全体を表形式で確認するのもおすすめです。

print(model.summary())

ご希望であれば、具体的なコード例やデータ例を使って一緒に確認もできます。

user:

指定された通りにしてもNoneなんです。何なんでしょうか。

assistant:

ありがとうございます、そうすると以下のような原因が考えられます。

✅ 原因と対策（順を追って確認）

1. `X` に列名（変数名）がない

→ model.pvalues['x1'] の 'x1' に該当する 列名が存在しない 場合、None または KeyError になります。

🔍 確認方法：

print(X.columns)
print(model.pvalues)

✅ 対策：

X が numpy.ndarray である場合、列名が存在しないため pvalues にインデックス番号が使われます（例：0, 1, 2...）。
その場合は、インデックス番号で取得してください：

pval = model.pvalues[1]  # 定数項が 0 番目にあると仮定

もしくは、pandas.DataFrame にして列名をつけるようにしてください。

✅ 例：

import pandas as pd
import statsmodels.api as sm

# データ作成（例）
X = pd.DataFrame({'x1': [1, 2, 3, 4], 'x2': [10, 20, 30, 40]})
X = sm.add_constant(X)
y = [5, 7, 9, 11]

model = sm.OLS(y, X).fit()
print(model.pvalues)           # 全体
print(model.pvalues['x1'])    # 特定の変数

2. `pvalues` 自体が None

これはほぼ起こりませんが、モデルがうまくフィッティングできていないとき（特に y や X に NaN や inf があるとき）には .pvalues が正しく生成されないことがあります。

🔍 確認：

print(model.pvalues is None)   # True ならフィット失敗
print(model.summary())         # モデル構造を確認

✅ 対策：

X や y に NaN や inf が含まれていないかチェックしてください：

print(pd.DataFrame(X).isnull().sum())
print(pd.Series(y).isnull().sum())

3. `.get()` の使用法が誤っている

model.pvalues.get() としても、Series.get() は None を返します。使うならキー（変数名）を必ず渡してください：

model.pvalues.get('x1')  # 正しい使用法（'x1'があればp値、なければNone）

✅ 最終的な推奨コード

import pandas as pd
import statsmodels.api as sm

# 仮データ（Xに名前を付ける）
X = pd.DataFrame({'x1': [1, 2, 3, 4], 'x2': [10, 20, 30, 40]})
X = sm.add_constant(X)
y = pd.Series([5, 7, 9, 11])

model = sm.OLS(y, X).fit()

print(model.pvalues)           # 全p値
print(model.pvalues['x1'])    # 特定変数のp値

もしそれでも None になるようでしたら、使用しているデータ（X、y）の中身や型をご共有いただければ、さらに具体的に対応できます。

user:

このような結果でした

OLS Regression Results                            
==============================================================================
Dep. Variable:                   PHEV   R-squared:                       1.000
Model:                            OLS   Adj. R-squared:                    nan
Method:                 Least Squares   F-statistic:                       nan
Date:                Tue, 10 Jun 2025   Prob (F-statistic):                nan
Time:                        16:20:42   Log-Likelihood:                 740.91
No. Observations:                  27   AIC:                            -1428.
Df Residuals:                       0   BIC:                            -1393.
Df Model:                          26                                         
Covariance Type:            nonrobust                                         
===============================================================================
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
const          -0.2817        inf         -0        nan         nan         nan
PHEV_lag1       0.2483        inf          0        nan         nan         nan
PHEV_lag2      -0.1539        inf         -0        nan         nan         nan

assistant:

ありがとうございます。以下のような出力結果から、p値（P>|t|）が nan になっている理由が明らかです。

🔍 問題の本質

No. Observations:                  27
Df Residuals:                       0
Df Model:                          26

観測数（データ数）: 27
説明変数の数（モデルの自由度）: 26（+定数で27）
残差の自由度（Df Residuals）: 0

❌ これは何が問題なのか？

➤ 自由度がゼロ（`Df Residuals: 0`）のために、標準誤差や t値、p値の計算ができません。

OLS 回帰では、残差の自由度 = データ数 - 説明変数数 - 1 です。
この自由度が 0 またはマイナスだと、モデルの評価統計量（t, p値など）は求まらないため、nan が返ってきます。

✅ 対策

1. 変数の数を減らす

現在、27個のデータに対して26個の説明変数（+定数項）があります。これは オーバーフィッティングで、実質的に「各データ点に1変数を割り当てた」状態。

説明変数（Xの列）の数を、データ数より 十分少なくしてください。
少なくとも、自由度が 5 以上あると安定して評価できます（目安）。

例：

# Xの次元数を確認
print(X.shape)

# 例えば、XをPHEV_lag1とPHEV_lag2だけにするなど
X = X[['PHEV_lag1', 'PHEV_lag2']]
X = sm.add_constant(X)

2. 不要な変数を除外する方法（自動選択）

変数選択を自動で行うなら、以下のような方法もあります：

ステップワイズ法（例: AICベースの変数選択）などを使う

ただし statsmodels には組み込みでないので、以下のように手動で実装するか、sklearn と併用します。

✅ まとめ

状況	解決策
データ数27、変数数26（+定数）	→ 変数が多すぎて自由度0になり、p値が `nan` になる
`model.pvalues.get('x')` が `None`	→ p値自体が `nan` なので当然の結果

🎯 最重要ポイント

p値を得たいなら「十分な自由度（=観測数 > 説明変数の数 + 1）」が必要です。

必要であれば、どの変数を残すべきかを一緒に考えるお手伝いもできます。データの構成（変数一覧など）を教えていただければ、変数選択や正則化（リッジやラッソ）による対処も可能です。

user:

ありがとうございます。ndarray で、１つでもnanが含まれていれば、というif文はどう書きますか？

assistant:

どういたしまして！
numpy.ndarray に 1つでも NaN が含まれているかを判定するには、np.isnan() と .any() を使います。

✅ `ndarray` に NaN が1つでも含まれているかどうかの判定

import numpy as np

# 例: X は ndarray
if np.isnan(X).any():
    print("NaNが含まれています")
else:
    print("NaNは含まれていません")

🔍 解説

np.isnan(X)
→ X の各要素が NaN かどうかの真偽値配列を返します。
.any()
→ 真偽値配列の中で 1つでも True（= NaNがある）なら True を返す。

✅ 補足：NaNを含むかのチェック関数（関数化しておくと便利）

def has_nan(arr):
    return np.isnan(arr).any()

# 使い方
if has_nan(X):
    print("NaNあり")

✅ 補足：`inf` もチェックしたい場合

if not np.isfinite(X).all():
    print("NaNまたはinfが含まれています")

np.isfinite() は NaN, +inf, -inf のすべてを除外できます。

必要であれば、NaN の位置（インデックス）を調べる方法や、NaN を削除・補完する方法も紹介できます。お気軽にどうぞ。

user:

ありがとうございました。ここまでの議論をブログに記録したいので、タイトル案をいくつか考えていただけますか？

assistant:

こちらこそ、ありがとうございました！
今回の議論をもとに、ブログの内容や読者の関心に合いそうなタイトル案をいくつかご提案します。

🌟 タイトル案

OLSとp値の落とし穴編

「自由度ゼロの罠：OLSでp値がnanになる理由と解決策」
「OLSのp値がNone？nan？その理由と対処法をPythonで解説」
「p値が出ない！データ数と変数数の関係を見直すOLS入門」
「Python×OLS回帰：p値がnanになるときの原因と対処」
「多すぎる説明変数でp値がnanに？自由度の重要性を学ぶ」

コーディングTips編

「numpyでNaN検出：1行で書けるif文の書き方」
「ndarrayにNaNやinfが含まれているかをスマートに確認する方法」

🎯 補足

もし記事の主眼が 原因の解説寄り か Pythonの実装Tips寄り かがあれば、さらに調整可能です！
どの方向性にするか決まっていればお知らせください。それに合わせたキャッチーなタイトル案を作れます。

user:

「p値が出ない！データ数と変数数の関係を見直すOLS入門」で行きたいと思います。最後に、ここまでの議論の詳しいまとめを書いてください。

assistant:

素晴らしいタイトルです！それでは、「p値が出ない！データ数と変数数の関係を見直すOLS入門」 に合った詳しいまとめを以下に記します。

p値が出ない！データ数と変数数の関係を見直すOLS入門

✅ 問題の発端

Python の statsmodels を使って OLS 回帰分析を行ったところ、p値を取得しようとしたら以下のような現象に遭遇しました。

model.pvalues.get('変数名') が None を返す
回帰結果の出力で P>|t| がすべて nan になる

✅ 詳細な原因

回帰分析の結果を確認すると、以下のような状況でした。

No. Observations:                  27
Df Residuals:                       0
Df Model:                          26

観測数（データ数）は27。
モデルの説明変数は26（＋定数項で合計27パラメータ）。
残差の自由度（Df Residuals）が0。

この状況では次のことが起こります：

各データにパラメータを割り当てた状態と同じ（過学習の極端な形）。
標準誤差の計算ができず、t値・p値も計算不能。
結果として、p値は nan になり、pvalues.get() などで取り出しても None が返る。

✅ 解決策

1️⃣ 説明変数の数を減らす

データ数 > 説明変数の数 + 1（= 自由度 > 0）となるよう、変数の数を見直します。
目安として、自由度が5以上あるとモデル評価が安定します。

# 例えば主要なラグ変数だけに絞る
X = X[['PHEV_lag1', 'PHEV_lag2']]
X = sm.add_constant(X)

2️⃣ NaN の有無を確認

データに NaN が含まれると計算に支障が出ます。
簡潔に確認するコード例：

import numpy as np
if np.isnan(X).any():
    print("XにNaNが含まれています")
if np.isnan(y).any():
    print("yにNaNが含まれています")

さらに、inf の確認も合わせて行う場合：

if not np.isfinite(X).all():
    print("XにNaNまたはinfが含まれています")

3️⃣ p値の取り出し方に注意

pvalues は pandas.Series。適切なキー指定が必要です。

print(model.pvalues)  # 全体を確認
pval = model.pvalues['PHEV_lag1']  # 変数名でp値を取り出す

もし X が numpy.ndarray のままだと列名はなく、インデックス番号で指定する必要があります。

✅ 学びのポイント

OLS で正しい統計量を得るには、観測数と説明変数のバランス（自由度） が重要。
モデルの自由度が 0 だと、p値は出ない。
データの中に NaN や inf がないか、事前に確認する習慣を持つ。
説明変数の選択や次元削減が解析の質を左右する。

✨ おわりに

今回のケースは「とにかく変数を詰め込めばよいわけではない」という統計モデルの基本を振り返る良い機会となりました。
ぜひ、適切な自由度を意識したモデル設計を心がけ、p値や統計指標が意味のある形で出るように工夫してみてください。

もし、次のステップとして「変数選択のアルゴリズム」「正則化（リッジ・ラッソ）」の話を加えたい場合は、お知らせください。さらに内容を広げたまとめやコード例をご用意できます！

user:

今日はこれで大丈夫です。ありがとうございました！

assistant:

こちらこそ、最後まで丁寧にやり取りしてくださりありがとうございました！
「p値が出ない理由と対策」という重要なテーマをしっかり掘り下げられたと思います。

また何か統計モデリングやPythonのことで相談があれば、いつでもお気軽にお声がけください。
どうぞ良い一日をお過ごしください！✨

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

p値が出ない！データ数と変数数の関係を見直すOLS入門

user:

assistant:

✅ 対策：正しい方法で p値を取り出す

❌ よくある間違い

まとめ

user:

assistant:

✅ 原因と対策（順を追って確認）

1. X に列名（変数名）がない

🔍 確認方法：

✅ 対策：

✅ 例：

2. pvalues 自体が None

🔍 確認：

✅ 対策：

3. .get() の使用法が誤っている

✅ 最終的な推奨コード

user:

assistant:

🔍 問題の本質

❌ これは何が問題なのか？

➤ 自由度がゼロ（Df Residuals: 0） のために、標準誤差や t値、p値の計算ができません。

✅ 対策

1. 変数の数を減らす

例：

2. 不要な変数を除外する方法（自動選択）

ステップワイズ法（例: AICベースの変数選択）などを使う

✅ まとめ

🎯 最重要ポイント

user:

assistant:

✅ ndarray に NaN が1つでも含まれているかどうかの判定

🔍 解説

✅ 補足：NaNを含むかのチェック関数（関数化しておくと便利）

✅ 補足：inf もチェックしたい場合

user:

assistant:

🌟 タイトル案

OLSとp値の落とし穴編

コーディングTips編

🎯 補足

user:

assistant:

p値が出ない！データ数と変数数の関係を見直すOLS入門

✅ 問題の発端

✅ 詳細な原因

✅ 解決策

1️⃣ 説明変数の数を減らす

2️⃣ NaN の有無を確認

3️⃣ p値の取り出し方に注意

✅ 学びのポイント

✨ おわりに

user:

assistant:

1. `X` に列名（変数名）がない

2. `pvalues` 自体が None

3. `.get()` の使用法が誤っている

➤ 自由度がゼロ（`Df Residuals: 0`）のために、標準誤差や t値、p値の計算ができません。

✅ `ndarray` に NaN が1つでも含まれているかどうかの判定

✅ 補足：`inf` もチェックしたい場合