本記事の概要
ウィルコクソンの順位和検定を概観することでノンパラメトリック検定の雰囲気を掴んでみます。
ノンパラメトリック検定とは
t-検定では正規分布を仮定しましたが、そのような確率分布の仮定を置かない検定をノンパラメトリック検定といいます。分布の仮定が不要なので、使用場面としては事前に詳細が分かっていないデータのように汎用性の高い検定手法であるといえます。
確率分布である程度正確に記述できる場合はパラメトリック検定が優れていますが、そうでない場合はノンパラメトリック検定が外れ値に影響されにくくロバストで高い検出力を達成すると言われています。しかし、ノンパラ検定の検出力の減少は意外と少なく、経験的に$n=6$程度でt検定(パラメトリック)とウィルコクソンの順位和検定(ノンパラ)は殆ど同等の結果となるそうです 1
ウィルコクソンの順位和検定
ノンパラ検定の例として、ウィルコクソンの順位和検定を説明します。「対応のない2標本の平均に差があるか否か?」へのノンパラ検定として知られており、同じ問題に対するパラメトリック検定はt検定になります。
2つの標本、$\{X_1,\ldots,X_m\}$と$\{Y_1,\ldots,Y_n\}$を考えます。機械学習の文脈で言うならば2つの手法のテストデータに対する精度や誤差でしょう。それぞれを第一標本、第二標本とよぶことにします。第一標本、第二標本ともに互いに独立に確率密度関数$f(x)$と$g(y)$に従うものとします。$f,g$の形に関してはなにも仮定していないことに注意してください。
ここで次の仮説:
\begin{align}
{\text 帰無仮説} :\quad &f = g\\
{\text 対立仮説} :\quad &f \neq g
\end{align}
を検定することを考えます。
いきなりですが、2つの標本を一緒にして値の小さいものから並べます。例えば
\begin{align}
X_5, X_2, Y_1, X_7, Y_9, \ldots, X_m, Y_n
\end{align}
のような感じです。この列に$1$から$M(=m+n)$まで順位(rank)をつけ、$X_1,\ldots,X_m$の順位を$R_1,\ldots,R_m$とします。
帰無仮説が正しい場合は二組の標本を小さいものから並べても両標本は均等に入り混じり、帰無仮説が正しくない場合は偏って並びそうだと直感的に思います。以下、それを数式に落とし込んでいきます。
帰無仮説を仮定した場合、二標本は同一の分布に従うので$R_1,\ldots,R_m$が$\{1\ldots,M\}$中の任意の$m$個の数$r_1\ldots,r_m$をとる確率はすべて等しく
\begin{align}
P(R_1=r_1,\ldots,R_m=r_m) = \frac{1}{M ( M - 1 ) \cdots ( M - m + 1 ) }
\end{align}
となります。分布の形に依存せず順位の実現値への確率が計算できます。ここで検定統計量として順位和
\begin{align}
W = \sum R_i
\end{align}
を定義すると、$P(W=w)$となる確率は同様に分布の形に無関係に計算できます。分布が大きくずれている場合、$R_1,\ldots,R_m$は小さな値か大きな値へ偏ると想定されるので
\begin{align}
P(W\le c_1) + P(W\ge c_2) = \alpha
\end{align}
を満たす定数$c_1, c_2$を定め、棄却域$\{W\le c_1, c_2 \le W\}$とすることで有意水準$\alpha$の検定方式が得られます。
$m,n$があまり大きくない場合はウィルコクソンの順位和検定の数表から$c_1,c_2$を決定します。一方、$m,n$が大きい場合は検定統計量$W$が正規分布
\begin{align}
N\left(\frac{m(M+1)}{2}, \frac{mn(M+1)}{12}\right)
\end{align}
に漸近することが知られており、この性質から棄却域を決定します。
例題
2つの標本があります。第一標本の標本数は15で、それらを昇順に並べると
42.6 43.9 44.1 44.2 45.0 45.8 47.4 48.0 48.7 49.5 49.6 50.0 51.4 52.7 52.8
です。第二標本の標本数は10で、それらを昇順に並べると
44.7 46.8 46.9 47.1 48.2 50.0 52.1 53.5 54.2 56.3
です。ウィルコクソンの順位和検定により2つの分布が等しいという仮説を有意水準5%で検定しなさい。
(答え)
$m=10,n=15$とし、第二標本の順位和を検定統計量とする。実現値は$W=154$である。数表2から棄却域は$\{W\le 94, 166\le W\}$であるから帰無仮説は棄却できない。