- Kruskal-Wallis検定
- Shirley-Williams検定
などのノンパラメトリックな多重比較検定で出てくる σ2(順位分散)。
意外とネット上に情報が無いうえに、紙媒体でも表記がまちまちで混乱したので、メモとして残します。
大学初等数学未履修なので、多少の粗相はお許しください。
結論
先に結論だけ言っておきます。
- $\sigma^2=\frac{1}{N-1} \bigg( \sum_{i=1}^a \sum_{k=1}^n r_{i, k}^2 -\frac{N(N+1)^2}{4}\bigg)$
- $\sigma^2=\frac{N(N+1)}{12}$
この2つの表記が教科書によって分かれますが、どちらも同じでした。
データの構成
- $ G_1 $~$ G_a$ で構成される $a$ 個の群
- $G$ はそれぞれ $n$ 個のデータ $x$ から構成される
- 第 $i$ 群の $k$ 番目のデータを $x_{i, k}$ で表す
このとき、データの総数を $N = an$ とします。
ランキングと順位分散
データを順位付けします。
検定を行うときは群をバラして、$x$ を小さい順に $1$ ~ $N$ 番目まで並べかえますが、ここでは実際の数値は扱わないので、個別の $x$ が何番目なのかは気にしません。そこで、単に以下のように表記します。
- データ $x_{i, k}$ の位置する順位を $r_{i, k}$ とする
ただし、順位分散を求めるためには、順位の合計値と平均値が必要なので、以下を定義します。
- 順位の合計を $R$ とする
R= 1+2+3+\cdots+N \\
=\sum_{m=1}^N m \\
=\frac{N(N+1)}{2}
- 順位の平均を $\bar{R}$ とする
\bar{R} = \frac{R}{N}=\frac{N+1}{2}
- このとき、順位の不偏分散は
\begin{align}
\sigma^2 &= \frac{1}{N-1} \sum(r-\bar{R})^2 \\
&=\frac{1}{N-1} \sum_{i=1}^a \sum_{k=1}^n (r_{i, k}-\bar{R})^2
\end{align}
変形その1
\begin{align}
\sigma^2 &=\frac{1}{N-1} \sum_{i=1}^a \sum_{k=1}^n (r_{i, k}-\bar{R})^2 \\
&= \frac{1}{N-1} \sum_{i=1}^a \sum_{k=1}^n (r_{i, k}^2-2r_{i,k}\bar{R} + \bar{R}^2) \\
&= \frac{1}{N-1} \bigg( \sum_{i=1}^a \sum_{k=1}^n r_{i, k}^2 -\sum_{i=1}^a \sum_{k=1}^n 2r_{i,k}\bar{R} + \sum_{i=1}^a \sum_{k=1}^n \bar{R}^2\bigg) \\
\end{align}
ここで、$\sum_{i=1}^a \sum_{k=1}^n r_{i,k}$ は、すべての $r$ の合計値なので、
\sum_{i=1}^a \sum_{k=1}^n r_{i,k}=R
とできます。また、$N=an$ だったので、
\sum_{i=1}^a \sum_{k=1}^n \bar{R}^2 = an\bar{R}^2 = N\bar{R}^2
したがって、
\begin{align}
\sigma^2&= \frac{1}{N-1} \bigg( \sum_{i=1}^a \sum_{k=1}^n r_{i, k}^2 - 2R\bar{R} + N\bar{R}^2\bigg) \\
\end{align}
さらに、
R = \frac{N(N+1)}{2},\,\,\,\,\,\,\,\,\, \bar{R} = \frac{N+1}{2}
を代入すると、
\begin{align}
\sigma^2&= \frac{1}{N-1} \bigg( \sum_{i=1}^a \sum_{k=1}^n r_{i, k}^2 - 2R\bar{R} + N\bar{R}^2\bigg) \\
&= \frac{1}{N-1} \bigg( \sum_{i=1}^a \sum_{k=1}^n r_{i, k}^2 -2\cdot\frac{N(N+1)}{2}\cdot\frac{N+1}{2}+N\cdot(\frac{N+1}{2})^2\bigg) \\
&= \frac{1}{N-1} \bigg( \sum_{i=1}^a \sum_{k=1}^n r_{i, k}^2 -\frac{N(N+1)^2}{2}+\frac{N(N+1)^2}{4}\bigg) \\
&= \frac{1}{N-1} \bigg( \sum_{i=1}^a \sum_{k=1}^n r_{i, k}^2 -\frac{N(N+1)^2}{4}\bigg)
\end{align}
変形その2
\begin{align}
\sigma^2 &= \frac{1}{N-1} \sum(r-\bar{R})^2 \\
&=\frac{1}{N-1} \sum_{i=1}^a \sum_{k=1}^n (r_{i, k}-\bar{R})^2
\end{align}
でした。ここで、$\sum_{i=1}^a \sum_{k=1}^n r_{i, k}$ の部分に注目します。
これはすべての $r$ の合計値です。
$r$ は $1$ ~ $N$ という順位の整数値をとるので、
\sum_{i=1}^a \sum_{k=1}^n r_{i, k} = \sum_{p=1}^Np
としても問題ありません。要するに、$1$ ~ $N$ を全部足しただけです。
すると、
\begin{align}
\sigma^2 &=\frac{1}{N-1} \sum_{i=1}^a \sum_{k=1}^n (r_{i, k}-\bar{R})^2 \\
&= \frac{1}{N-1} \sum_{p=1}^N (p-\bar{R})^2 \\
&= \frac{1}{N-1} \sum_{p=1}^N (p^2-2\bar{R}p+\bar{R}^2) \\
&= \frac{1}{N-1} \bigg( \sum_{p=1}^N p^2 -2\bar{R}\sum_{p=1}^N p +\bar{R}^2 \sum_{P=1}^N\bigg)\\
&= \frac{1}{N-1} \bigg(\frac{N(N+1)(2N+1)}{6}-2\bar{R}\frac{N(N+1)}{2}+\bar{R}^2 N\bigg) \\
\end{align}
ここで、
\bar{R} = \frac{N+1}{2}
を代入すると、
\begin{align}
\sigma^2 &=\frac{1}{N-1}\bigg(\frac{N(N+1)(2N+1)}{6}-2\cdot\frac{N+1}{2}\cdot\frac{N(N+1)}{2}+N(\frac{N+1}{2})^2 \bigg) \\
&= \frac{1}{N-1}\bigg(\frac{N(N+1)(2N+1)}{6}-\frac{N(N+1)^2}{4}\bigg) \\
&= \frac{1}{N-1}\cdot\frac{N(N+1)(N-1)}{12}\\
&= \frac{N(N+1)}{12}
\end{align}
誤りがあったら教えてください。