問題設定
普段データを分析している中で,複数の群の相関係数を計算し,母相関係数に統計的に有意な差があるかどうかを検定したい時があると思います.
私自身が研究の中でこのような問題に遭遇し,このような検定を紹介しているページを探したのですが,日本語のページでそれらしいものがあまり見当たらなかったため,ここで紹介しておきたいと思います.
記号の定義
- $r_i$
- クラス$i$の標本相関係数
- $\rho_i$
- クラス$i$の母相関係数
- $n_i$
- クラス$i$のサンプル数
検定
検定はもちろん
$$
H_0: \rho_i=\rho_j,\, \forall i\neq j\quad {\rm vs}
\quad H_1:\exists (i, j)\, {\rm s.t.}\, \rho_i \neq \rho_j
$$
です.
まずは,フィッシャーのZ変換で$r_i$を変換します:
$$
Z_i = \frac{1}{2}\log \frac{1+\rho_i}{1-\rho_i}
\stackrel{\mathcal{D}}{\longrightarrow}
\mathcal{N}\left(
\frac{1}{2}\log\frac{1+\rho_i}{1-\rho_i},\,
\frac{1}{n_i-3}
\right).
\tag{1}
$$
この$Z_i$からカイ2乗統計量を計算します:
$$
\chi^2=\sum_{i=1}^{c}(n_i-3){Z_i}^2-\frac{\left[ \sum_{i=1}^{c}(n_i-3)Z_i \right]^2}{\sum_{i=1}^c (n_i-3)}.
\tag{2}
$$
この$\chi^2$が,帰無仮説$H_0$の下で自由度$c-1$のカイ2乗分布に従います.
よって,自由度$c-1$のカイ2乗分布の上側$100\alpha$%点を$\chi^2_{c-1}(\alpha_{\rm upp})$,下側100$\alpha$%点を$\chi^2_{c-1}(\alpha_{\rm low})$とすると,検定の棄却域$C$を
$$
C=\left( -\infty, \chi^2_{c-1}\left( \alpha_{\rm low}\right) \right)
\cup \left( \chi^2_{c-1}\left( \alpha_{\rm upp}\right), \infty \right)
$$
で構成すれば良い事になります.数学的な補足
各統計量が従う分布に関する証明を記します.
(1)に関する証明
http://www.biwako.shiga-u.ac.jp/sensei/kumazawa/tahenryou/correlation2.pdf に詳しい証明が載っています.
(2)が従う分布に関する証明
前提知識として,非心カイ2乗分布に関する知識が必要です.
- 非心カイ2乗分布
- p.d.f.が
$$
f_X(x)=\begin{cases}
\exp\left( -\frac{\lambda}{2}\right)\sum{k=0}^{\infty} \frac{1}{k!}
\left( \frac{\lambda}{2}\right)^2 g_{n+2k}(x) && x>0 \\
0 && x\leq 0
\end{cases}
$$
である確率分布を自由度$n$,非心パラメータ$\lambda$の非心カイ2乗分布という.
ただし,$g_{n+2k}(x)$は自由度$n+2k$のカイ2乗分布のp.d.f.である.
-
$X_i \stackrel{iid}{\sim} \mathcal{N}(\mu_i, \sigma_i^2)
\Longrightarrow \sum_{i=1}^c X_i^2/\sigma_i^2\sim \chi^2\left(
n, \sum_{i=1}^c\mu_i^2/\sigma_i^2
\right)$
-
$\chi^2\left( n, \sum_{i=1}^c\mu_i^2/\sigma_i^2 \right)$は,自由度$n$,非心パラメータ$\sum_{i=1}^c\mu_i^2/\sigma_i^2$の非心カイ2乗分布を表します.
上記の2つのことを頭に入れた上で,(2)の第1項について考えると,
$$
\sum_{i=1}^{c}(n_i-3){Z_i}^2\sim \chi^2\left(
c,\, \frac{1}{4}\sum_{i=1}^c (n_i-3)\left(
\log \frac{a+\rho_i}{1-\rho_i}
\right)^2
\right)
$$
であることがわかります.
次に(2)の第2項について考えます.
$$
\sum_{i=1}^{c}(n_i-3)Z_i\sim \mathcal{N}\left(
\frac{1}{2}\sum_{i=1}^c (n_i-3)\log\frac{1+\rho_i}{1-\rho_i},\,
\sum_{i=1}^c (n_i-3)
\right)
$$
ですから,(2)の第2項は
$$
\frac{\left[ \sum_{i=1}^{c}(n_i-3)Z_i \right]^2}{\sum_{i=1}^c (n_i-3)}
\sim \chi^2\left( 1,\,
\frac{
\left( \sum_{i=1}^c (n_i-3)\log \frac{1+\rho_i}{1-\rho_i}\right)^2
}{4\sum_{i=1}^c (n_i-3)}
\right)
$$
となります.
したがって,(2)が従う分布は
$$
\chi^2=\sum_{i=1}^{c}(n_i-3){Z_i}^2-\frac{\left[ \sum_{i=1}^{c}(n_i-3)Z_i \right]^2}{\sum_{i=1}^c (n_i-3)}
\sim \chi^2\left( c-1,\,
\frac{1}{4}\sum_{i=1}^c (n_i-3)\left(
\log \frac{1+\rho_i}{1-\rho_i}
\right)^2
-\frac{
\left( \sum_{i=1}^c (n_i-3)\log \frac{1+\rho_i}{1-\rho_i}\right)^2
}{4\sum_{i=1}^c (n_i-3)}
\right)
\tag{3}
$$
となります.ここで,帰無仮説$H_0$を仮定すると
$$
\chi^2 \sim \chi^2(c-1, 0)=\chi^2_{c-1}
$$
となります.参考
- http://aoki2.si.gunma-u.ac.jp/lecture/Corr/corr4.html
- http://www.biwako.shiga-u.ac.jp/sensei/kumazawa/tahenryou/correlation2.pdf
- 佐和隆光(1979)『回帰分析』(統計ライブラリー)朝倉書店
- 数学科同期氏の優秀な頭脳
- 非心カイ2乗分布