この記事は、統計初心者のために数式を一切使わずに「t検定」について説明した記事です。
実在する会社や団体とは一切関係ありませんのでご注意ください
t検定とは
t検定とは、**「平均値の差が意味のある差なのか」**を検証する方法です。
例えば、ス●ードラーニングという教材を使って英語を勉強する場合を考えてみましょう。
5人のグループを2組用意して、片方はス●ードラーニングで、もう一方は普通の教材で勉強させます。1週間後にテストを受けて2つのグループの点数を比較するという実験を行いました(架空の話ですよ!)
ス●ードラーニング組の平均点 | 普通の教材組の平均点 |
---|---|
80 | 70 |
このような結果が出たとの広告を見たとき、あなたはス●ードラーニングを購入しますか?
ス●ードラーニングが優れた教材だから差がついたのか、個人差のばらつきの範疇なのかわかりませんよね。10点の差が「意味のある差」つまり有意差なのかどうかの判断が必要です。
このような判断を行うときにt検定が活躍します。
データのばらつきと有意差
平均値は同じでも、データのばらつきによって有意差があるかどうかは変わってきます。
ス●ードラーニング組の点数 | 普通の教材組の点数 |
---|---|
80 | 65 |
85 | 70 |
75 | 68 |
82 | 70 |
78 | 72 |
この結果を見ると、ス●ードラーニングは効果ありそう。
ス●ードラーニング組の点数 | 普通の教材組の点数 |
---|---|
100 | 90 |
90 | 70 |
70 | 70 |
70 | 70 |
70 | 50 |
一方この場合だと、「たまたまス●ードラーニング組に頭がいい子がいただけちゃう?」ってなりますね。
平均値が同じでも、データのばらつきによって「集団による差」なのか「個人による差」なのかが変わってきます。
t検定はこの部分を見抜くために使われます。
t検定のざっくりとした手順
1. 帰無仮説を立てる
高校数学の「背理法」って覚えてますか?
「1は整数ではない」ことがありえないと証明することにより、「1は整数である」が正しいことを証明するという方法でしたね。
t検定の帰無仮説はそれと良く似た考え方です。
「二つのグループの間に差はない」という帰無仮説を立て、これを否定(棄却)できたら「二つのグループに有意差がある」とみなします。
上の例を挙げると、「ス●ードラーニングをやった組とやってない組の間に有意な差はない」という仮説を立てるわけです。
2. 「p値」を求める
次に、p値を計算します。
p値とは、「ス●ードラーニングをやった組とやってない組の間に有意な差はない」という帰無仮説があるにもかかわらず、
ス●ードラーニング組の点数 | 普通の教材組の点数 |
---|---|
80 | 65 |
85 | 70 |
75 | 68 |
82 | 70 |
78 | 72 |
このような実際に起こった結果を生む確率のことです。
p値というと難しいですが、ただの確率です。「p=0.3」なら30%の確率ということです。
「差がないのに実際に起こった事実が起こるのはどれだけ珍しいのか」という数値。
ここでは感覚的な理解を目的としているので数式は省略しますが、
p値は、平均値およびデータのばらつきから計算されます。
3. 有意水準とp値を比べる
有意水準とは、「これは珍しすぎてありえない!」という基準のことです。
この数字は通常5%と決められています。これは統計界の決まり事です。
有意水準=一律5%
先ほど計算したp値は「2グループの差がないのにテスト結果がああなる確率」でした。
この確率が「5%以下」なら「これは珍しすぎてありえない!」といえるわけです。
その結果、「二つのグループの間に差はない」という帰無仮説が棄却され、「ス●ードラーニングは有意に英語の成績を上げる」ということが言えるわけです。
逆に、p値が「5%以上」なら「2グループの差がないのにテスト結果がああなる可能性もある」ということになり、「ス●ードラーニングは有意に英語の成績を上げるとは言い切れない」という結果になります。
実際にp値をもとめてみましょう。p値は、手動で計算することは難しいですが、エクセルの分析ツールなどを使えば簡単に求めることができます。
ス●ードラーニング組の点数 | 普通の教材組の点数 |
---|---|
80 | 65 |
85 | 70 |
75 | 68 |
82 | 70 |
78 | 72 |
この例の場合、p=0.004。
「二つのグループの間に差はない」のにこのような分布になる確率は0.4%ということ。
この場合は「ス●ードラーニングは有意に英語の成績を上げる」と断言できるでしょう。
ス●ードラーニング組の点数 | 普通の教材組の点数 |
---|---|
100 | 90 |
90 | 70 |
70 | 70 |
70 | 70 |
70 | 50 |
この例の場合、p=0.266。
「二つのグループの間に差はない」のにこのような分布になる確率は26.6%以下もあります。
この場合は「ス●ードラーニングは有意に英語の成績を上げる」とは言い切れません。
##まとめ
ご覧いただきありがとうございました。
難しい内容なので、ざっくり理解していただけたらOKです。
ちなみに、ス●ードラーニングはきっと有意に効果がある教材だと思います!笑