『統計学実践ワークブック』第13章の勉強メモです。
ノンパラメトリック法
- パラメトリック法:母集団分布の仮定の下で検定統計量$T$を導入し、$T$が従う分布を用いて仮説検定を行う
- ノンパラメトリック法:母集団分布の仮定を設けることなく、仮説検定を行う
ノンパラメトリック法の基本的な考え方は、データを構成している観測値を大きさ順に並び替えて統計量を作ること。
母集団がわかっていても、サンプルサイズが小さい時はノンパラメトリック法が有効なケースもある。
ノンパラメトリック法は以下のようなものがある。
検定内容 | 検定名 |
---|---|
2群の差の検定 | ウィルコクソンの順位和検定、並べ替え検定 |
対応がある場合の差の検定 | 符号付順位検定、符号検定 |
3群以上の差の検定 | クラスカル・ウォリス検定 |
ウィルコクソンの順位和検定
- 観測値の集合である2つの群A、Bを考える。各群の要素数を$N_A$、$N_B$とする
- 帰無仮説を「2つの群の分布は同じ」、対立仮設を「群Aの分布の形は群Bと同じだが、小さい方にずれている」とする
- 群Aと群Bを合わせて、観測値に小さい順で順位を与える
- 各群の観測値の和$W_A$、$W_B$を検定統計量とする
- 帰無仮説が正しいと仮定すると、$N_A+N_B$の順位はランダムに割り振られると考えられる
- 群Aに割り振られる順位の組合せは${}{N_A+N_B} C{N_A}$であることを利用して、群Aの順位和$W_A$が実測値以下となる確率$P(W_A\leq 実測値)$を求める
- この確率を有意水準と比較し、帰無仮説を棄却するか否かを考察する
データの数値に同じ値がある場合は、順位を分配する。
各群のサンプルサイズ$N_A$、$N_B$が大きく、タイがない場合、平均$=\frac{N_A(N_A+N_B+1)}{2}$、分散$=\frac{N_AN_B(N_A+N_B+1)}{12}$の正規分布近似を用いる。
マン・ホイットニーのU検定と実質的に同じ手法であり、まとめてマン・ホイットニーのU検定と呼ぶ。
並べ替え検定
並べ替え検定はウィルコクソンの順位和検定と異なり、数値の平均を検定統計量とする。
- 観測値の集合である2つの群A、Bを考える。各群の要素数を$N_A$、$N_B$とする
- 帰無仮説を「2つの群の分布は同じ」、対立仮設を「群Aの分布の形は群Bと同じだが、小さい方にずれている」とする
- 群Aと群Bを合わせて、観測値に小さい順で順位を与える
- 各群の観測値の平均$\bar{X_A}$、$\bar{X_B}$を検定統計量とする
- 帰無仮説が正しいと仮定すると、$N_A+N_B$の順位はランダムに割り振られると考えられる
- 群Aに割り振られる順位の平均の組合せを考えて、群Aの平均$\bar{X_A}$が実測値以下となる確率$P(\bar{X_A}\leq 実測値)$を求める
- この確率を有意水準と比較し、帰無仮説を棄却するか否かを考察する
小標本の場合には、並べ替え検定の方が有効なこともある。(参考)
ウィルコクソンの符号付順位検定
観測値の集合$D$が1つであり、負の値があるときに使うことができる。
- 観測値を絶対値の小さい順に並べる。ただし、値が0になったときはその観測値を除き、サンプルサイズ$n$の減らす
- この順に符号付きの順位を割り当てる。絶対値の小さいものから1を付け、負の値のものにはマイナスもつける
- これらのうち正の値の合計$T_+$を検定統計量とする。順位の組合せは$2^n$通りあり、$T_+$は0から$frac{n(n+1)}{2}$までの値をとる
- 帰無仮説を「分布$D$の中央値$=0$」、対立仮説を「分布$D$の中央値$>0$」とする片側検定を考える
- 帰無仮説が正しいと仮定すると、検定統計量は1から$n$までの和の半分$\frac{n(n+1)}{4}$程度の値をとる
- 検定統計量$T_+$が実測値以上の値をとる確率$P(T_+\geq 実測値)$を求める
- この確率を有意水準と比較し、帰無仮説を聞きゃするか否かを考察する
符号付き順位検定を用いるとき、分布$D$が対象であることを条件とするため、あまりにもゆがみのある分布に利用することは好ましくない。
順位にタイがある場合は、順位を分配し、同様の計算をする。
サンプルサイズ$n$が大きいとき、平均$=\frac{n(n+1)}{4}$、分散$=\frac{n(n+1)(2n+1)}{24}$の
正規分布近似を用いる。
符号検定
符号検定は符号付き順位検定と異なり、分布$D$の対称性を仮定する必要はない。
- 0の値をとらないサンプルサイズ$n$に対して、差の値が正になった個数を検定統計量$T_+$とする
- 帰無仮説は「分布$D$の中央値$=0$」、対立仮説は「分布$D$の中央値$>0$」とする
- 帰無仮説が正しいと仮定すると、検定統計量は二項分布$Bin(n,0.5)$に従うと考える
- 実測値$t_+$のとき、符号検定片側P-値は、$P(T_+\geq t_+)=nC_{t_+}+\cdots$となる
クラスカル・ウォリス検定
クラスカル・ウォリス検定は複数の群の分布に差があるか考える。
- 観測値の集合である3つの群A、B、Cを考える。そのサンプルサイズを$n_A$、$n_B$、$n_C$とし、サンプルサイズの合計は$N=n_A+n_B+n_C$となる
- 帰無仮説は「3つの群の分布は同じ」、対立仮説は「3つの群の分布は同じでない」とする
- 3群を合わせて、観測値の小さい順に順位を振る。順位の中央値は$M=\frac{N+1}{2}$、各群の順位和は$R_A$、$R_B$、$R_C$、各群の順位の平均は$\bar{R_A}$、$\bar{R_B}$、$\bar{R_C}$とする
- 検定統計量は$H=\frac{12}{N(N+1)}(n_A(\bar{R_A}-M)^2+n_B(\bar{R_B}-M)^2+n_C(\bar{R_C}-M)^2)$とする
各群のサンプルサイズが大きい時には、自由度が{群の数$-1$}のカイ二乗分布近似を利用する。
順位相関係数
2次元データ$(x_i,y_i)$$(i=1,2,\cdots,n)$がともに順位データ(順序尺度データ)である場合の相関係数を順位相関係数という。
スピアマンの順位相関係数
スピアマンの順位相関係数$r_s$は以下のようになる。
r_s=1-\frac{6\sum_{i=1}^{n}(x_i-y_i)^2}{n(n^2-1)}
これは、(ピアソンの積率)相関係数に順位データをあてはめたものとなる。
ピアソンの積率相関係数
2つの要素データ$(x_i,y_i)$$(i=1,2,\cdots,n)$について、相関係数は
r_{xy}=\frac{\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2}\times\sqrt{\frac{1}{n}\sum_{i=1}^n(y_i-\bar{y})^2}}
となる。分母は標準偏差の積で、分子は共分散となる。
ケンドールの順位相関係数
$(x_i,y_i)$と$(x_j,y_j)$$(i\neq j)$に対して、$(x_i-x_j)(y_i-y_j)$が正となる組の数を$P$、負となる組の数を$N$とする。ケンドールの順位相関係数$r_k$は以下のようになる。
r_k=\frac{P-N}{n(n-1)/2}
例題
13.1
[1]
Aの順位は4(135)、1(127)、2(131)なので、順位和は7となる。
Bの順位は3(132)、6(144)、5(138)なので、順位和は14となる。
対立仮説はA薬の方が効果が高い(血圧が低い)であるので、$P(W_A\leq 7)$が求めるP-値となる。
順位の組合せは${}_6C_3=20$であり、7以下の順位の組は$(1,2,3)$と$(1,2,4)$だけなので、$P(W_A\leq 7)=2/20=0.1$となる。
[2]
p-値が一番小さくなるのは、順位和が最小値の時なので、$1/nC_{n_A}<0.03$が成り立つ$n$と$n_A$を求めればよい。$nC_{n_A}>33.3$となるので、$n=7$、$n_A=3$となる。最低でも7人いればよい。
[3]
絶対値の小さい順に並び替えると、$-3,7,17$となる。
符号付き順位は$-1,2,3$となる。
検定統計量は$T_+=2+3=5$となる。
血圧が下がる方向が良い結果なので、薬投下後の血圧測定の結果の差(B薬-A薬)は大きくなる方が良い。そのため、求めるP-値は$P(T_+\geq 5)$である。
符号付順位の組合せは$2^3$通りであり、$T_+$が5以上になる組合せは$(1,2,3)$と$(-1,2,3)$だけなので、$P(T_+\geq 5)=2/8=0.25$
[4]
P-値が一番小さくなるのは、$T_+$の実測値が最大値のみの時だけなので、$1/2^n<0.05$が成り立つ$n$を求めればよい。$2^n>20$となるので、$n=5$となる。最低でも5人いればよい。