- 正規分布への適合度検定(シャピロ-ウィルク検定)とは何か
- シャピロ-ウィルク検定とは
- Pythonによるシャピロ-ウィルク検定の実行
統計学の学習:正規分布への適合度検定(シャピロ-ウィルク検定)とは何か
今回はシャピロ-ウィルク検定とは何かについて考えてみたいと思います。
所要時間は30分ほどとなっています。
それでは、さっそく始めていきましょう!
シャピロ-ウィルク検定とは
シャピロ-ウィルク検定は、統計学においてデータセットが正規分布に従っているかどうか(正規性)を評価するための検定です。多くの統計手法(t検定、ANOVAなど)は、データが正規分布に従うことを前提としているため、この検定はデータの前提条件を確認する上で非常に重要となります。
検定の目的:
与えられたサンプルデータが、正規分布から抽出されたものと見なせるかを判断すること。
帰無仮説 (H0):** データは正規分布に従う。
対立仮説 (H1):** データは正規分布に従わない。
シャピロ-ウィルクのW統計量:
この検定は、データの秩序統計量(ソートされたデータ)と、正規分布から期待される秩序統計量との相関を利用してW統計量を計算します。W値は0から1の間の値を取り、1に近いほどデータが正規分布に近いことを示します。
P値の解釈:
計算されたW統計量に対応するP値が、設定した有意水準(通常は0.05)よりも小さい場合、帰無仮説を棄却します。これは、データが正規分布に従わないという十分な証拠があることを意味します。
Q-Qプロットによる視覚的確認:
シャピロ-ウィルク検定の補足として、Q-Q(Quantile-Quantile)プロットがよく用いられます。これは、データの分位点と、理論的な正規分布の分位点を比較してプロットするものです。点がほぼ直線上に並ぶ場合、データは正規分布に従っていると判断できます。シャピロ-ウィルク検定のW統計量は、このQ-Qプロットの直線からのズレを数値化したものと考えることができます。
それでは、実際にデータを生成し、シャピロ-ウィルク検定を実行して、Q-Qプロットと共に可視化してみましょう!
Pythonによるシャピロ-ウィルク検定の実行
グラフと結果の解釈
ヒストグラム:
データのおおよその形状を視覚的に捉えることができます。理論的な正規分布の曲線とどの程度一致しているかを確認します。
Q-Qプロット:
データ点が対角線(赤い直線)上にどれだけ乗っているかを見ることで、正規性からの逸脱を判断します。点が直線に沿っていればいるほど、正規分布に近いと言えます。特に、両端が直線から大きく外れている場合、裾野の正規性からの逸脱を示唆します。
P値:
P値が有意水準よりも大きい場合(今回の例のように)、視覚的な情報と合わせて、データが正規分布に従うという帰無仮説を棄却するほどの根拠はない、と判断します。


