統計の勉強をしていると、いろいろな検定手法が出てきます。今回は検定について代表的なものをまとめてみました。検定は、区間推定とよく似た考えをベースとしています。区間推定って何?という方がいたら、別の記事に区間推定についてまとめてみましたので、先にこちらを確認してみてください。
1. 検定ってそもそも何?
今回扱う検定は、区間推定とともに推測統計学の最も基本的な手法の1つです。事前に仮説を立て、その仮説が正しいかを検証するための手法です。独特な用語や言い回しが並びますが、これらを使いこなせるようになると、例えば、新薬に効果があるかなどについて統計的に語れるようになります。
新薬の検定の例をめちゃくちゃざっくりで言うと、新薬と偽薬の集団の平均が同じ(帰無仮説は主張したい仮説の反対にするので $\mu_1=\mu_2$)だとすると、実験で得た値はめちゃめちゃレア、ということで、新薬の効果があった(対立仮説:$\mu_1 \neq \mu_2$)と判断します。はじめはしっくりこないかもしれませんが、統計的検定では主張したい仮説ではなく、棄却した帰無仮説を検定するというところがポイントです(いわゆる背理法)。
1.1 検定にはどんなものがあるの?
検定と一言で言っても、多くの方法があります(以下代表的なものの例)。今回はその中でも正規分布、t分布、カイ二乗分布、F分布を使った最も基本的な検定(平均、母比率、分散の検定)について扱っていきたいと思います。
種類 | ざっくりしたイメージ |
---|---|
z検定 | 統計量が標準正規分布に従うことを用いる統計学的検定法 |
t検定 | 統計量がt分布に従うことを用いる統計学的検定法 |
分散の $\chi^2$ 検定 | 統計量がカイ二乗分布に従うことを用いる統計学的検定法 |
F検定 | 統計量がF分布に従うことを用いる統計学的検定法 |
適合度検定 | 度数が適合するか否かを検証する方法 |
順位和検定 | データの順位を用いて検定する方法 |
尤度比検定 | 尤度比を検定量として用いる統計学的検定法 |
このように今回扱う4つの検定は、確率分布がすでに分かっている統計量を使って仮説を評価するというのが基本の考え方です。やりたいことに応じて利用する統計量を使い分けることで統計的検定を行うことができます。後半に検定したいことに対応した統計量を記載していますので確認してください。
2. 検定の基本
さっそく、基本の用語と流れを抑えていきたいと思います。
2.1 検定で使う用語
検定で出てくる用語について、まずはざっくりしたイメージです。
・帰無仮説:無に帰する仮説ということで、否定したい仮説。 例)平均は変わらない
・対立仮説:これが自分の主張に相当するもので、本来採択したい仮説。 例)平均は増えた
・有意水準:帰無仮説を棄却するか受容するかの判断ライン。
・検定統計量:検定を目的として、標本から求める値。
・p値:帰無仮説が正しいと仮定したときに、統計量が実現値より極端な値になる確率。
・棄却域:p値が下回ったときに帰無仮説を否定する領域。
2.2 検定の流れ
3. 検定の概要
Z検定、t検定、分散の $\chi^2$検定、F検定のいずれの検定もパラメトリックと呼ばれる、何かしらの確率分布を前提とした検定手法です。それぞれ利用する確率分布をもとに以下のような考え方で検定を行います。
3.1 検定の考え方
検定では、帰無仮説が正しいと仮定した世界で、今手元にある現実データから求めた値が、その統計量が従う確率分布の中のどの位置にあるかで評価を行います。これは、現実から得られた値が、帰無仮説が正しいという仮説の世界で、どの程度起きやすいのかを確率で考え評価することを意味します。
帰無仮説が正しいという仮説の世界で、現実から得られた値以上に極端な値がでる確率を p値と呼び、帰無仮説を棄却するかどうかの判断の境目に用いる値を有意水準 $\alpha$ と呼びます。
p値が有意水準 $\alpha$ よりも小さい場合、レアなことが起きている(偶然ではなく意味のあることが起きている)と考え、帰無仮説を棄却し、対立仮説を採択します(統計的に有意な差がみられた状態)。一方、p値が有意水準 $\alpha$ よりも大きい場合、この差は単なるばらつきから生じたものであり、帰無仮説を棄却することはできない(統計的に有意な差はみられなかった)。ということになります。
ここで注意しなくてはいけないのは、統計的に有意な差がみられた場合でも、対立仮説が絶対に正しいということではなく、対立仮説を支持する1つの証拠が得られた。という意味を示しているにすぎないということです。
3.2 両側検定と片側検定
検定において、一般には両側検定(分布の両方の裾の和を使う検定)を用いますが、片側の確率だけで有意水準 $\alpha$ とする片側検定もあります。
片側検定を行うときは、検定を行う対象が +側か ー側か論理的に決まっている場合に使います。その場合、仮説の不等号と棄却域については、以下のように設定します。
$\mu > \mu_0$ : $\mu$ は基準の値よりも大きいと思っているのだから、右裾に入ってきたら有意。
$\mu < \mu_0$ : $\mu$ は基準の値よりも小さいと思っているのだから、左裾に入ってきたら有意。
4. いろいろな検定と検定量
ここでは各種検定について両側検定のみを記載してあります。片側検定を使いたい場合は、棄却域を前章を参考に変えて使ってください。
4.1 平均の検定(1標本の検定)
まずは、最も基本的な母集団の平均の検定からはじめたいと思います。やりたいことは、母平均が変わったといえるのかを評価することです。母集団の平均の検定は、区間推定と同様、標準化変量zを利用します。母分散がわかっているとき/わからないとき、標本サイズが大きいとき/小さいときの条件によって計算方法が変わるのも区間推定と同様です。もし区間推定について復習したい方は、こちらを確認してみてください。
\text{標本平均の標準化変量 } z = \frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}} \\
上の式では、「標本平均」の標準化変量を考えているので、分母の分散部分は標本サイズnで割ったものになっています。この辺が「?」と思う方は、こちらの3章あたりに標本平均が便利なことに母集団の分散や平均を使って正規分布で表現できる、ということを記載してみましたので、ぜひ見てみてください。繰り返しにはなりますが、ここで考えているのは、標本平均の従う分布、ということを考えればしっくりくるのではないかと思います。
帰無仮説 $H_0$ : $\mu=\mu_0$ 、対立仮説 $H_1$ : $\mu≠\mu_0$
条件 | 検定統計量 | 検定統計量の分布 | 棄却域 |
---|---|---|---|
$母集団は正規分布、\sigma^2は既知$ | $z=\frac{\bar{x}-\mu_0}{\frac{\sigma}{\sqrt{n}}}$ | 標準正規分布 | $ |z|> z_\frac{\alpha}{2}$ |
$大標本 (n≧30)$ | $z=\frac{\bar{x}-\mu_0}{\frac{u}{\sqrt{n}}}$ | 標準正規分布 | $ |z|> z_\frac{\alpha}{2}$ |
$母集団は正規分布、\sigma^2は未知(小標本)$ | $t=\frac{\bar{x}-\mu_0}{\frac{u}{\sqrt{n}}}$ | 自由度 $n-1$ のt分布 | $ |t|> t_\frac{\alpha}{2}(n-1)$ |
※$u$ : 標本不偏分散
4.2 母比率の検定(1標本の検定)
母比率の検定も、平均の検定と基本的には同じ考えになります。こちらもやりたいことは母比率が変わったといえるのかを評価です。母比率とは何かについてもくこちらの記事に記載してありますので、復習したい方はこちらの3.2章を確認してみてください。
帰無仮説 $H_0$ : $p=p_0$ 、対立仮説 $H_1$ : $p \neq p_0$
条件 | 検定統計量 | 検定統計量の分布 | 棄却域 |
---|---|---|---|
大標本 $n>30 , np>5 , nq>5$ |
$z=\frac{\hat{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}} ここで \hat{p}=\frac{x}{n}$ | 標準正規分布 | $ |z|> z_\frac{\alpha}{2}$ |
4.3 母分散の検定
母分散の検定は、母分散が変わったといえるのかを評価します。
帰無仮説 $H_0$ : $\sigma^2 = \sigma_0^2$ 、対立仮説 $H_1$ : $\sigma^2 \neq \sigma_0^2$
条件 | 検定統計量 | 検定統計量の分布 | 棄却域 |
---|---|---|---|
母集団は正規分布 | $\chi^2=\frac{(n-1)u^2}{\sigma^2}=\frac{ns^2}{\sigma^2}$ | 自由度$n-1$の $\chi^2$ 分布 | $\chi^2<\chi^2_{1-\frac{\alpha}{2}}(n-1)$ または $\chi^2>\chi^2_{\frac{\alpha}{2}}(n-1)$ |
4.4 平均の差の検定(2標本の検定)
2つの母集団からそれぞれ取ってきた2つの標本の標本平均に差があった時、2つの母平均に差があるといえるのかを評価します。
帰無仮説 $H_0$:$\mu_1=\mu_2$ 、対立仮説 $H_1$:$\mu_1 \neq \mu_2$
条件 | 検定統計量 | 検定統計量の分布 | 棄却域 |
---|---|---|---|
$母集団は正規分布、\sigma_1^2,\sigma_2^2は既知$ | $z=\frac{\bar{x_1}-\bar{x_2}}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$ | 標準正規分布 | $ |z|> z_\frac{\alpha}{2}$ |
$大標本(n_1,n_2≧30)$ | $z=\frac{\bar{x_1}-\bar{x_2}}{\sqrt{\frac{u_1^2}{n_1}+\frac{u_2^2}{n_2}}}$ | 標準正規分布 | $ |z|> z_\frac{\alpha}{2}$ |
$母集団は正規分布$ $\sigma_1^2=\sigma_2^2=\sigma^2(等分散)で\sigma^2は未知$ |
$t=\frac{\bar{x_1}-\bar{x_2}}{\sqrt{\frac{u^2}{n_1}+\frac{u^2}{n_2}}}$ $u^2=\frac{(n_1-1)u_1^2+(n_2-1)u_2^2}{n_1+n_2-2}$ |
自由度 $n_1+n_2-2$ のt分布 | $ |t|> t_\frac{\alpha}{2}(n_1+n_2-2)$ |
$母集団は正規分布(対応のある場合)$ | $t=\frac{\bar{d}}{\sqrt{\frac{u_d^2}{n}}}$ $\bar{d}=\frac{1}{n}\sum{d_i}$ $u_d^2=\frac{1}{n-1}\sum{(d_i-\bar{d})^2}$ |
自由度$n-1$のt分布 | $ |t|> t_\frac{\alpha}{2}(n-1)$ |
※$n_1$、$n_1$ :不偏分散
(補足)対応のある場合は、いわば1標本のt検定として「平均に差がない」を帰無仮説としたものです。たとえば、Aさんが薬を飲む前と飲んだ後の差などそれぞれのサンプルごとの差(d)を利用して検定を行うものです。対応のあるデータの場合、対応のある検定を用いた方が、第二種の過誤が起きにくい、すなわち検出力が上がる傾向があると言われています。
(参考)母分散が未知で等しくない場合、t検定をそのまま行うことはできません。t検定を改良したウェルチのt検定で算出することもできますが、2つの群の分散が異なる場合は、平均の差を検定することに意味があるのかという問題(ベーレンス・フィッシャー問題)が生じると言われていますので表内の記載は省略します。ちなみにウェルチのt検定の自由度 $df$ は、以下の式で求められるようです。複雑…ですね。。。
df=\frac{\Bigl({(\frac{u_1^2}{n_1})+(\frac{u_2^2}{n_2})}\Bigr)^2}
{\frac{\bigl(\frac{s_1^2}{n_1}\bigr)^2}{n_1-1}+\frac{\bigl(\frac{s_2^2}{n_2}\bigr)^2}{n_2-1}}
4.5 比率の差の検定(2標本の検定)
2つの母集団の母比率に差があるといえるのかを評価します。
帰無仮説 $H_0$ : $p_1=p_2$ 、対立仮説 $H_1$ : $p_1 \neq p_2$
条件 | 検定統計量 | 検定統計量の分布 | 棄却域 |
---|---|---|---|
大標本 $n_1,n_2>30$ $n_1p_1>5,n_1q_1>5$ $n_2p_2>5,n_2q_2>5$ |
$z=\frac{\hat{p_1}-\hat{p_2}}{\sqrt{\hat{p}\hat{q}(\frac{1}{n_1}+\frac{1}{n_2})}}$ $ここで\hat{p}=\frac{x_1+x_2}{n_1+n_"}$ |
標準正規分布 | $ |z|> z_\frac{\alpha}{2}$ |
4.6 等分散の検定
帰無仮説 $H_0$ : $\sigma_1^2=\sigma_2^2$ 、対立仮説 $H_1$ : $\sigma_1^2\neq\sigma_2^2$
条件 | 検定統計量 | 検定統計量の分布 | 棄却域 |
---|---|---|---|
母集団は正規分布 | $F=\frac{u_1^2,u_2^2の大きい方}{u_1^2,u_2^2の小さい方}$ | $自由度(n_1-1,n_2-1)のF分布$ $または$ $自由度(n_2-1,n_1-1)のF分布$ |
$有意水準\alphaで、$ $u_1^2>u_2^2ならば F>F_{\frac{\alpha}{2}}(n_1-1,n_2-1)$ $u_2^2>u_1^2ならば F>F_{\frac{\alpha}{2}}(n_2-1,n_1-1)$ |
各統計量を見るとわかる通り、統計量に算出に標本サイズnを使います。そのため、検定において、実験者がコントロールする値(標本サイズ)で結論が変わってしまうことは問題だという指摘があります。実際に使う際は、あらかじめサンプルサイズnを設計したり、ベイズファクターを導入するなどで正しい検定を行えるよう注意が必要です。
5. 2種類の過誤(第1種過誤と第2種過誤)
これら仮説の検定では、2種類の誤りが考えられます。帰無仮説 $H_0$ が真のときにこれを棄却する誤り(第1種過誤)と、$H_0$ が偽のときにこれを採択する誤り(第2種過誤)です。
\begin{align}
帰無仮説が正しいのに棄却されちゃう確率 : α &= \frac{棄却されちゃう}{帰無仮説が正しい}\\
\\
対立仮説が正しいのに棄却されない確率 : β &= \frac{棄却されない}{対立仮説が正しい} \\
\\
検出力 : 1-β &= \frac{棄却される}{対立仮説が正しい} \\
\\
\end{align}
α と β はトレードオフの関係にあります。つまり、一方を小さくするともう一方が大きくなる関係です。
ただ、α が一定のもと β をなるべく小さくしたい(主張が正しければなるべく有意と判定されたい)と考えるはずです。このとき、以下のように $H_0$ と $H_1$ の2つの正規分布が離れれば離れるほど β が小さくなることを利用します。
ここで上図の右下の式をnについて解くと、一定の検出力を確保するためのサンプルサイズnを求めることができます。
\begin{align}
n &= \frac{(z_{\frac{\alpha}{2}} + z_\beta)^2}{(\frac{\mu_1-\mu_0}{\sigma})^2}
&= \frac{(z_{\frac{\alpha}{2}} + z_\beta)^2}{\Delta^2}
\end{align}
このとき $\Delta$ を「エフェクトサイズ」と呼びます。式からわかるようにエフェクトサイズは、効果の大きさ(この場合平均の差)が標準偏差の何倍に相当するかということを表しています。
検出力を高める最も有効な手立ては、このように標本サイズを大きくすることと言われていますが、もう1つ、対応のあるt検定を行うことも検出力を高めると言われています。
まとめ
数学的、統計学的に違和感のある表現もあるかもしれませんが、統計検定の取得を目指した方や、これから統計を勉強する方がなるべくイメージしやすいような表現を選びました。それでも、まだややこしい表現になっている箇所もあるかもしれませんが、ご了承ください。
【参考文献、サイト】
- Wikipedia https://ja.wikipedia.org/wiki/統計学
- Rで学ぶ統計学入門 嶋田正和・阿部真人[著]
- 統計学入門 阿部真人[著]
本書は筆者たちが勉強した際のメモを、後に学習する方の一助となるようにまとめたものです。誤りや不足、加筆修正すべきところがありましたらぜひご指摘ください。継続してブラッシュアップしていきます。また、様々なモデルの解説書を掲載していますので、興味のある方は、以下のサイトもご参照ください。