KPSS検定(Kwiatkowski–Phillips–Schmidt–Shin検定)は、時系列データが「定常性」を持っているかどうかを判断するための重要な統計手法です。本記事では、KPSS検定の仕組みや数式の解説を、初心者でも理解できるようにわかりやすくまとめました。
※この記事は、ChatGPTの出力を基に作成しています。
定常性とは何か?
定常性とは、データの統計的性質が時間に依存しないことを意味します。具体的には、以下の条件を満たす場合に「定常」とみなされます:
- 平均値が一定である
- 分散が一定である
- 共分散が時間差だけに依存し、絶対的な時間には依存しない
例えば、平均20度を中心に上下する気温のデータは「定常的」といえます。一方で、時間とともに増加する売上データなどは「非定常的」です。
KPSS検定の概要
KPSS検定は、「データが定常的である」という仮定(帰無仮説)を立て、それを検証します。以下がその基本的な流れです。
-
データのモデル化
KPSS検定では、データ$\ y_t $ を次のようなモデルとして表現します:
$
y_t = \alpha + \beta t + u_t + \epsilon_t
$- $ \alpha $:定数項
- $ \beta t $:トレンド成分(時間とともに増加または減少する部分)
- $ u_t $:ランダムウォーク成分(累積的なランダム変動)
- $ \epsilon_t $:ホワイトノイズ(平均0、一定分散のランダム変動)
-
帰無仮説と対立仮説
- 帰無仮説$\ H_0 $:データは定常である(ランダムウォーク成分 $ u_t $がない)。
- 対立仮説$\ H_1 $:データは非定常である(ランダムウォーク成分 $\ u_t $ が存在する)。
-
統計量の計算
累積和 $ S_t $ を計算し、その二乗和とデータの分散を使ってKPSS統計量を算出します:
$
\eta = \frac{1}{T^2 \sigma^2} \sum_{t=1}^T S_t^2
$- $ S_t = \sum_{i=1}^t (y_i - \bar{y}) $(累積和)
- $ \sigma^2 = \frac{1}{T} \sum_{t=1}^T (y_t - \bar{y})^2 $(分散)
- $ T $:データの総数
-
臨界値との比較
計算した $ \eta $ を臨界値と比較します:- $ \eta $ が臨界値より小さい → 帰無仮説を採択(データは定常的)。
- $ \eta $ が臨界値より大きい → 帰無仮説を棄却(データは非定常的)。
データの総数T²を使う理由
累積和 $ S_t $ は、時間が進むほど値が大きくなる性質を持っています。そのため、その二乗和 $ \sum_{t=1}^T S_t^2 $ も時間に比例して大きくなります。
分母に $ T^2 $ を入れる理由は、次のような「累積効果」を補正するためです:
- 時間が長くなるにつれて累積和の増大を打ち消す。
- 統計量が時間のスケールに依存しないようにする。
結果として、データの総数にかかわらず統一された基準で評価が可能になります。
まとめ
KPSS検定は、時系列データが定常性を持っているかを判断するための重要な手法です。その基本的な考え方は:
- 累積和の二乗和 を基にデータの定常性を評価する。
- データのばらつきやスケールの影響を分散や総数 $\ T^2 $ で補正して標準化する。
- 計算された統計量を臨界値と比較して判定する。
KPSS検定の活用は、時系列データ分析の第一歩です。データの特性を理解し、適切な分析手法を選択するために、この手法をぜひ活用してみてください!