数理統計から見るノンパラメトリック検定

Last updated at 2024-08-31Posted at 2024-08-31

ネット上のノンパラメトリック検定についての情報は、ほとんどExcelやR、SPSSによる実際のプログラム操作の話に占められており、ノンパラメトリック検定の数理統計的な解釈をするのに大変苦労したため、個人の勉強の記録として記事を執筆しました。正確性は保証しません。

ウィルコクソンの順位和検定

対応のない2変量の分布が等しいかどうかを検定する。
それぞれの分布の標本として $x_1,\cdots,x_m$ および $y_1,\cdots,y_n$ を考える。双方の分布の標本$m+n$個を小さい順に並び替え、1から順位をつけていく。タイがある場合の処理は後述する具体例の部分で詳しく述べる。

$x_i$の順位を$R_{x_i}$、$y_i$の順位を$R_{y_i}$とするとき、
それぞれの標本の順位和は

W_x = \sum_{i=0}^m R_{x_i}\\
W_y = \sum_{i=0}^n R_{y_i}

と表すことができ、さらに$W=min(W_x,W_y)$を検定統計量とする。ここでの検定問題の帰無仮説および対立仮説は、例えば片側検定として

H_0: 母集団Xと母集団Yの分布は等しい\\
H_1: 母集団Xの分布の方が大きい

と表す。
なぜ順位和の小さい方を統計量とするのかという点については、小さい方で有意であれば大きい方も有意であるためではないかと思われる。
サイズが大きい場合、$W$は正規分布に従うので、$E[W]$ 及び $Var[W]$ を計算することにより、 $\frac{W-E[W]}{\sqrt{Var[W]}}$ が標準正規分布に従うことから検定を行うことができる。サイズが小さい場合はその順位和より大きくなる場合の確率をすべて足し合わせることでP値を算出し、有意確率と比較する。
$W$の期待値と分散を求めるにあたり、非復元抽出の考え方を利用して導出する。

1. 定義通りに計算を行う場合

ここでは$W=W_x$とする。
期待値は、

\begin{eqnarray}
E[W] &=& E[\sum_{i=1}^m R_{x_i}]\\
&=& \sum_{i=1}^m E[R_{x_i}]\\
&=& mE[R_{x_i}]\\
&=& m\sum_{j=1}^{m+n}jP(R_{x_i}=j)\\
&=& m\sum_{j=1}^{m+n}j\frac{1}{m+n} \cdots(1*)\\
&=& \frac{m(m+n+1)}{2}
\end{eqnarray}

(1*)非復元抽出における $P(R_{x_i}=j)=\frac{1}{m+n}$ が直観的ではないと感じる場合は、後述する順列の考え方を用いれば、

P(R_{x_i}=j) = \frac{(m+n-1)!}{(m+n)!} = \frac{1}{m+n}

が求められる。

分散については、まず簡単のために重複した順位が存在しないと仮定する。

Var[W] = E[X^2]-(E[X])^2

を計算すれば良いが、右辺第1項の計算において $E[R_i R_j](i \neq j)$ を求める必要がある。
$E[R_i R_j]=\sum_{k \neq l}klP(R_{x_i}=k \land R_{x_j}=l)$となるが、具体的な解釈としては、$m+n$個の有限母集団から一度に$m$個を取り出したとき、ある $i,j(i,j \leq m)$ について $R_{x_i}=k$ かつ $R_{x_j}=l$ となる場合の期待値となる。計算のネックとしては $P(R_{x_i}=k \land R_{x_j}=l)$ であるが、答えから先に述べると

P(R_{x_i}=k \land R_{x_j}=l) = \frac{1}{(m+n)(m+n-1)}

となる。様々な導出法があると思うが、個人的に最もコンパクトな導出は、$m+n$個の順列を考えることである。
並べ方の総数は$(m+n)!$通りであり、また $R_{x_i}=k \land R_{x_j}=l$ となる並べ方は残りの$(m+n-2)$を並び替えればよく、$(m+n-2)!$通りである。ゆえに求める確率は、

P(R_{x_i}=k \land R_{x_j}=l) = \frac{(m+n-2)!}{(m+n)!} = \frac{1}{(m+n)(m+n-1)}

となる。
この部分がクリアできれば後はゴリゴリ計算することで次のような分散が求められる。

Var[W] = \frac{mn(m+n+1)}{12}

2. 非復元抽出における標本平均の期待値と分散を用いる場合

正直やってることはそこまで変わらないが、非復元抽出における標本平均の期待値と分散を理解しているならばそのまま当てはめるだけなので早い。

まず、$N$個の有限母集団 $X_1,\cdots,X_N$ から$n$個の標本 $Y_1,\cdots,Y_n$ を取り出したときの標本平均の期待値と分散を考える。
まず、母平均 $\mu$ と母分散 ${\sigma}^2$ は次のようになる。

\mu = \frac{1}{N}\sum_{i=1}^N X_i\\
{\sigma}^2 = \frac{1}{N}\sum_{i=1}^N (X_i - \mu)^2

標本平均 $\bar{Y}$ の期待値と分散を $\mu$ と ${\sigma}^2$ を用いて表すと、

E[\bar{Y}] = \mu\\
Var[\bar{Y}] = \frac{N-n}{N-1}\frac{{\sigma}^2}{n}

となる。分散の計算のネックとして共分散を求める必要があるが、同様に順列の考え方を用いれば容易に導出できる。

さて、今回の順位和の問題を有限母集団からの非復元抽出の問題に落とし込むと、有限母集団 $X_1,\cdots ,X_{m+n}$ から $m$ 個の標本 $Y_1,\cdots,Y_m$ を取り出したときの和であり、また $X_i = i$ とすれば $X_i$ は順位に等しく、 $m$ 個の標本を取り出したときの和は2つの分布のうち片方の順位和 $W$ に等しい。
片方の分布の順位和、すなわち標本の和は

W = Y_1 + Y_2 + \cdots + Y_m = m\bar{Y}

と表せる。また、今回の問題における母平均と母分散は、上述した母平均と母分散の式を用いて

\mu = \frac{1}{N}\sum_{i=1}^N X_i = \frac{1}{m+n}\frac{1}{2}(m+n)(m+n+1) = \frac{1}{2}(m+n+1)\\
{\sigma}^2 = \frac{1}{12}((m+n)^2 - 1)

と表すことができる。これらの式より、

E[W] = E[m\bar{Y}] = m\mu = \frac{1}{2}m(m+n+1)\\
Var[W] = Var[m\bar{Y}] = m^2Var[\bar{Y}] = \frac{mn(m+n+1)}{12}

以上までは重複した要素（＝タイがない）場合の期待値と分散であったが、重複がある場合、分散は

Var[W] = \frac{mn(m+n+1)}{12} - \frac{mn}{12(m+n)(m+n-1)}\sum_{i=1}^k {\tau}_i({{\tau}_i}^2 - 1)

となるらしい。ただし、 $\tau_i$ は重複している要素の要素数を表し、上式では重複している要素の種類数が $k$ 個あるとしている。さすがにこの導出は骨が折れるのか、どの書籍にもどのネット記事にも情報が落ちておらず、自分で導出するのも嫌なので諦めた。

マン・ホイットニーのU検定

マン・ホイットニーのU検定とウィルコクソンの順位和検定はほぼ同一であると言われているが、マン・ホイットニーの検定統計量 $U$ とウィルコクソンの順位和検定の検定統計量 $W$ の関係を見れば明瞭である。サイズが小さい場合（$m,n$とも9未満の場合）は付表から求める。サイズが大きい場合は標準正規分布に近似できる。
検定統計量 $U$ は

I(x,y) = \left\{
\begin{array}{}
1 & if \quad x > y\\
0.5 & if \quad x = y\\
0 & if \quad x < y
\end{array}
\right.

とするとき、

U = min(\sum_{i=0}^m \sum_{j=0}^n I(x_i, y_j), mn-U)

となる。数式で見るとややこしいかもしれないが、結局は母集団 $X$ のそれぞれの要素と母集団 $Y$ のそれぞれの要素の大小を比べてポイントを加算していく感じになる。上式の $min$ の第2引数 $mn-U$ はどこから現れたのかというと、 $x>y$ の場合に $+1$ したときの $U$ 統計量を例えば $U_1$ とし、$x<y$ の場合に $+1$ したときの $U$ 統計量を $U_2$ とした場合、 $U_1 + U_2 = mn$ となるが、これは $(x,y)$ の組み合わせ総数と一致するためである。つまり $mn-U$ は $x<y$ の場合に $+1$ する場合の統計量に等しい。
もう少し噛み砕いた表現をすれば、$x>y$ の場合に $+1$ するか、$x<y$の場合に $+1$ するかの2通りのうち、総ポイント数が小さい方を検定統計量とする。

順位和を用いてUを表現することもでき、その場合は

U  = min(W_x - \frac{m(m+1)}{2}, mn + \frac{m(m+1)}{2} - W_x)

と表される。この式の第1引数 $W_x - \frac{m(m+1)}{2}$ は上の説明で言う $U_1$ に等しく、第2引数は $U_2$ に等しい。
この公式だけ突然ポンと書いてある書籍や記事ばかりで、どこから出てきたのか意味不明だった。もしかしたら自明なのかもしれない。なぜこの等式が成り立つのか悩んだ結果、自分なりに考えた結果を述べる。まず同値変形した次の式を考える。

W_x = U_1 + \frac{m(m+1)}{2}

右辺第2項は何を意味しているのかというと、 $x_i$ の順位和 $W_x$ の最小値と解釈できる。$U_1$ はその最小値と実際の順位和との差分とみればこの等式がなんとなく腑に落ちる気がする。 $U_1$がなぜ差分となるのか、について自分は厳密な証明ができない。

上式を見れば、順位和 $W_x$ に対して線形であるから、順位和検定と本質的には同じであると思われる。
$W_x$ の期待値と分散は既知であるので、$U$ の期待値と分散は容易に導出できる。

E[U] = \frac{mn}{2}\\
Var[U] = \frac{mn(m+n+1)}{12}

ウィルコクソンの符号付順位和検定

対応のある2変量の分布が等しいかどうか検定をする。母集団 $X$ からの標本 $x_1, \cdots,x_n$ と母集団 $Y$ からの標本 $y_1, \cdots,y_n$ について、 $z_i = y_i - x_i$ とする。$z_i$ を小さい順に並び替えて順位をつける。
$z=0$ を除いた場合の標本数を $n'$ とし、$z>0$ の場合のみの順位和を $T^+$、$z<0$ の場合のみの順位和を $T^-$ とする。 $I(z_i>0)$ を $z_i>0$の場合に1、 $z_i<0$の場合に0となる定義関数とすれば、

T^+ = \sum_{i=0}^n R_{z_i}I(z_i > 0)\\
T^- = \sum_{i=0}^n R_{z_i}I(z_i < 0)

と表現できる。検定統計量 $T$ を

T = min(T^+, T^-)

とし、標本のサイズが小さい場合（26未満）はサインランク表を用いて検定し、大きい場合は正規分布に近似して検定を行う。
そのために帰無仮説の下での $T$ の期待値と分散を求める必要がある。ここでは $T^+$ を検定統計量とする。

帰無仮説の下では、すべての $i$ について $R_{z_i} > 0$ となる確率は $\frac{1}{2}$ であるので、 $\epsilon_1, \cdots, \epsilon_n \sim Ber(\frac{1}{2}),i.i.d.,$ とすれば、

T^+ = \epsilon_1 1 + \cdots + \epsilon_n n = \sum_{i=0}^n \epsilon_i i

と表せる。それゆえに期待値と分散は容易に求められる。

E[T^+] = \frac{n(n+1)}{4}\\
Var[T^+] = \frac{n(n+1)(2n+1)}{24}

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up