Rを用いて、
t.test
と入力するだけで、簡単に実施できるT検定。しかし、その前提条件について理解している人は少ないのではないでしょうか。
T検定の勉強をしていくと、必ず「正規分布とT検定の関係性」について悩むことがあると思います。
ネット上の記事を見ていると、「T検定を実施する際は標本の母集団の分布が正規分布でないといけない」という記事や、「T検定は頑健性があるから正規分布以外でも問題ない」という記事もあります。
どちらの主張が正しいのか分からなかったので、自分なりに調べてまとめて見ました。
なお、以下で登場するT検定はウェルチのT検定を意味しています。
#正規分布の必要性
「標本の母集団の分布が正規分布していないとT検定が使えない」という主張は、半分正しくて半分正しくないです。
小標本(T検定にかける2群それぞれのサンプル数が1桁など)では、確かに母集団の分布が正規分布している必要があります。
しかし、標本のサンプル数が30以上の場合、この限りではありません。なぜなら、中心極限定理により、サンプル数が30程度あれば、標本平均値の母集団の分布は正規分布になることが証明されているからです。
T検定において、正規分布している必要があるのは、**それぞれの標本の母集団の分布ではなく、それぞれの標本平均の「差」の母集団の分布です。**これはT検定を理解するうえで、とても重要なポイントです。
例えば、A群とB群があった場合、T検定を実施できる前提条件は、A群、B群の平均値の差の母集団の分布が正規分布していることです。A群、B群の母集団が正規分布している必要はありません。
ではなぜ、「標本の母集団の分布が正規分布していないとT検定が使えない」という主張が出てくるのでしょうか?
それは、**「標本平均の「差」の母集団の分布が正規分布である」**という前提条件を満たす方法が2通りあるからです。
###標本の母集団分布とT検定
パターン①
A群、B群の母集団分布が正規分布であることが分かっている場合
→母集団の分布が正規分布である場合、それぞれの標本の平均値の母集団の分布も正規分布であることが数学的に証明されている。(つまり、A群とB群の平均値の母集団分布が正規分布になる)
→標本A、Bの平均値の母集団の分布が正規分布の場合、その平均値の差の母集団分布も正規分布になることが数学的証明されている。
つまり、「A群、B群の母集団分布が正規分布」の場合、「平均値の差の分布も正規分布になる」ことから、T検定の前提条件を満たし、T検定が利用できる。
パターン②
A群、B群の母集団の分布系が分からないが、それぞれのサンプル数が30以上ある場合
→中心極限定理により、サンプル数が30以上ある場合、それぞれの群の平均値の母集団の分布は正規分布になる。
→標本A、Bの平均値の母集団の分布が正規分布の場合、その平均値の差の分布も正規分布になることが数学的証明されている。
つまり、「A群、B群の母集団の分布系によらず各群でサンプル数が30以上ある」場合、「平均値の差の分布も正規分布になる」ことから、T検定の前提条件を満たし、T検定が利用できる。
以上が、「標本の母集団の分布が正規分布していないとT検定が使えない」という主張が半分正しく半分間違っている理由です。T検定を実施したいそれぞれの群で、サンプル数が30以上ある場合、何も気にせずにT検定を実施しても良い、ということになりますね。
ただ、そうは言っても、標本の母集団の分布が正規分布である方が検出力が高いらしい(理由は勉強中)ので、対数変換やBox-Cox変換などで、正規分布に近似してからT検定を実施するのが良さそうです。
#まとめ
・小標本の場合
標本の母集団分布が正規分布であることが必要
正規分布以外の場合は、対数変換やboxcox変換を実施する
・標本サイズが30以上の場合
そのままT検定を利用してOK