0
0
  • Kruskal-Wallis検定
  • Shirley-Williams検定

などのノンパラメトリックな多重比較検定で出てくる σ2(順位分散)

意外とネット上に情報が無いうえに、紙媒体でも表記がまちまちで混乱したので、メモとして残します。
大学初等数学未履修なので、多少の粗相はお許しください。

結論

先に結論だけ言っておきます。

  • $\sigma^2=\frac{1}{N-1} \bigg( \sum_{i=1}^a \sum_{k=1}^n r_{i, k}^2 -\frac{N(N+1)^2}{4}\bigg)$
  • $\sigma^2=\frac{N(N+1)}{12}$

この2つの表記が教科書によって分かれますが、どちらも同じでした

データの構成

  • $ G_1 $~$ G_a$ で構成される $a$ 個の群
  • $G$ はそれぞれ $n$ 個のデータ $x$ から構成される
  • 第 $i$ 群の $k$ 番目のデータを $x_{i, k}$ で表す

qiita1.png

このとき、データの総数を $N = an$ とします。

ランキングと順位分散

データを順位付けします。
検定を行うときは群をバラして、$x$ を小さい順に $1$ ~ $N$ 番目まで並べかえますが、ここでは実際の数値は扱わないので、個別の $x$ が何番目なのかは気にしません。そこで、単に以下のように表記します。

  • データ $x_{i, k}$ の位置する順位を $r_{i, k}$ とする

ただし、順位分散を求めるためには、順位の合計値と平均値が必要なので、以下を定義します。

  • 順位の合計を $R$ とする
 R= 1+2+3+\cdots+N \\
 =\sum_{m=1}^N m \\
 =\frac{N(N+1)}{2}
  • 順位の平均を $\bar{R}$ とする
\bar{R} = \frac{R}{N}=\frac{N+1}{2}
  • このとき、順位の不偏分散は
\begin{align}
\sigma^2 &= \frac{1}{N-1}  \sum(r-\bar{R})^2 \\

&=\frac{1}{N-1}  \sum_{i=1}^a \sum_{k=1}^n (r_{i, k}-\bar{R})^2
\end{align}

変形その1

\begin{align}

\sigma^2 &=\frac{1}{N-1}  \sum_{i=1}^a \sum_{k=1}^n (r_{i, k}-\bar{R})^2 \\

&=  \frac{1}{N-1}  \sum_{i=1}^a \sum_{k=1}^n (r_{i, k}^2-2r_{i,k}\bar{R} + \bar{R}^2) \\

&= \frac{1}{N-1}  \bigg( \sum_{i=1}^a \sum_{k=1}^n r_{i, k}^2 -\sum_{i=1}^a \sum_{k=1}^n 2r_{i,k}\bar{R} + \sum_{i=1}^a \sum_{k=1}^n \bar{R}^2\bigg) \\

\end{align}

ここで、$\sum_{i=1}^a \sum_{k=1}^n r_{i,k}$ は、すべての $r$ の合計値なので、

\sum_{i=1}^a \sum_{k=1}^n r_{i,k}=R

とできます。また、$N=an$ だったので、

\sum_{i=1}^a \sum_{k=1}^n \bar{R}^2 = an\bar{R}^2 = N\bar{R}^2

したがって、

\begin{align}

\sigma^2&= \frac{1}{N-1}  \bigg( \sum_{i=1}^a \sum_{k=1}^n r_{i, k}^2 - 2R\bar{R} + N\bar{R}^2\bigg) \\

\end{align}

さらに、

R = \frac{N(N+1)}{2},\,\,\,\,\,\,\,\,\, \bar{R} = \frac{N+1}{2}

を代入すると、

\begin{align}

\sigma^2&= \frac{1}{N-1}  \bigg( \sum_{i=1}^a \sum_{k=1}^n r_{i, k}^2 - 2R\bar{R} + N\bar{R}^2\bigg) \\

&= \frac{1}{N-1}  \bigg( \sum_{i=1}^a \sum_{k=1}^n r_{i, k}^2 -2\cdot\frac{N(N+1)}{2}\cdot\frac{N+1}{2}+N\cdot(\frac{N+1}{2})^2\bigg) \\

&= \frac{1}{N-1}  \bigg( \sum_{i=1}^a \sum_{k=1}^n r_{i, k}^2 -\frac{N(N+1)^2}{2}+\frac{N(N+1)^2}{4}\bigg) \\

&= \frac{1}{N-1}  \bigg( \sum_{i=1}^a \sum_{k=1}^n r_{i, k}^2 -\frac{N(N+1)^2}{4}\bigg)


\end{align}

変形その2

\begin{align}
\sigma^2 &= \frac{1}{N-1}  \sum(r-\bar{R})^2 \\

&=\frac{1}{N-1}  \sum_{i=1}^a \sum_{k=1}^n (r_{i, k}-\bar{R})^2
\end{align}

でした。ここで、$\sum_{i=1}^a \sum_{k=1}^n r_{i, k}$ の部分に注目します。
これはすべての $r$ の合計値です。
$r$ は $1$ ~ $N$ という順位の整数値をとるので、

\sum_{i=1}^a \sum_{k=1}^n r_{i, k} = \sum_{p=1}^Np

としても問題ありません。要するに、$1$ ~ $N$ を全部足しただけです。
すると、

\begin{align}
\sigma^2 &=\frac{1}{N-1}  \sum_{i=1}^a \sum_{k=1}^n (r_{i, k}-\bar{R})^2 \\

&= \frac{1}{N-1}  \sum_{p=1}^N (p-\bar{R})^2 \\

&= \frac{1}{N-1}  \sum_{p=1}^N (p^2-2\bar{R}p+\bar{R}^2) \\

&= \frac{1}{N-1} \bigg( \sum_{p=1}^N p^2 -2\bar{R}\sum_{p=1}^N p +\bar{R}^2 \sum_{P=1}^N\bigg)\\

&= \frac{1}{N-1} \bigg(\frac{N(N+1)(2N+1)}{6}-2\bar{R}\frac{N(N+1)}{2}+\bar{R}^2 N\bigg) \\

\end{align}

ここで、

\bar{R} = \frac{N+1}{2}

を代入すると、

\begin{align}
\sigma^2 &=\frac{1}{N-1}\bigg(\frac{N(N+1)(2N+1)}{6}-2\cdot\frac{N+1}{2}\cdot\frac{N(N+1)}{2}+N(\frac{N+1}{2})^2 \bigg) \\

&= \frac{1}{N-1}\bigg(\frac{N(N+1)(2N+1)}{6}-\frac{N(N+1)^2}{4}\bigg) \\

&= \frac{1}{N-1}\cdot\frac{N(N+1)(N-1)}{12}\\

&= \frac{N(N+1)}{12}
\end{align}

誤りがあったら教えてください。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0