1標本の平均の検定
t検定は2つの母集団の平均値に違いがあるかどうかの検定に用いられます。
例えば2人の営業マンの営業成績の平均値や、2種類の薬の効果の平均値に
違いがあるか調べる時にt検定を行います。
標本数が1つの場合もt検定を用いますので、ここでは1標本の平均の検定を
行ってみます。
t値
t検定ではまずt値を求めます。
t値を端的に表すと
t値= \frac{期待値の差}{分散/サンプルサイズ}
になります。以上の式より、
・期待値の差→大きいほどt値が高い
・分散→小さいほどt値が高い
・サンプルサイズ→大きいほどt値が高い
ことがわかります。
t値が大きさは有意差に関わってきます。
t検定
t値が大きいか小さいかを判定する時にt検定を行います。
手順は
1. t値からp値を求める
2. p値が0.05を下回るか判定
になります。
t値が大きければp値は小さくなり、一般的にp値が0.05を下回れば
t値は大きいと判定します。
またサンプルサイズが大きい方がp値が小さくなります。
p値
「たまたまある事象が発生する確率」をp値と言います。
t検定におけるp値とは、本来差があるとは言えないデータ間で比較して
t値を計算した時、与えられたt値よりも大きな値が「たまたま」出てくる
確率のことです。
標準誤差
t値の計算にはサンプルサイズを考慮した標準偏差である標準誤差を使います。
t値= \frac{期待値-0}{標準誤差}
標準誤差を式に表すと
\sqrt{{\frac{\frac{1}{n-1} \sum_{i=1}^{n} (x_{i}-u)^2}{n}}} = {\frac{σ}{\sqrt{n}}} \\
となります。
nはサンプルサイズ、uは期待値、σは標準偏差を表します。
式を分解してみます。
不偏分散は以下の式になります。
\frac{1}{n-1} \sum_{i=1}^{n} (x_{i}-u)^2 \\
サンプリングにより分散は過小評価される傾向があります。
不偏分散では分母を-1することで偏りを減らし、分散を大きくしています。
標準偏差は以下の式になります。
\sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_{i}-u)^2} \\
分散はデータを二乗しているため、単位まで二乗になります。
そこで標準偏差は分散の平方根をとることで扱いやすくしています。
Rによるt検定
例えばあるダイエット食品を被験者に与えてみることにします。
対象の翌月の体重の増減をt_data変数に入れ、t検定を行います。
# テストデータの作成
> t_data = c(-1.2, -1.5, 0.9, 0.3, -1.6, -3.4, -2.2, 1.1, -3.9, -2.1, 3.1, -0.5, -0.2, -2.4, -3.1, -0.3, 1.2, -0.9, -1.4, -1.5)
# t検定
> t.test(t_data)
One Sample t-test
data: t_data
t = -2.5305, df = 19, p-value = 0.02038
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
-1.7905678 -0.1694322
sample estimates:
mean of x
-0.98
テストデータの期待値は-0.98です。
出力は「データの期待値が0と有意に異なっているか」を
t検定した結果となります。
95%信頼区間の範囲は-1.7905678から-0.1694322となります。
p値が0.05を下回っていて、t値が-2.53を「たまたま」下回る確率は
2%程度しかないとわかります。
つまり「データの期待値は有意に0と異なる」といえます。
データは帰無仮説を支持せず、ダイエット食品の効果はあると主張できます。
プロット
なお、本来は検定を行う前にデータをプロットし視覚的に偏りを見てみることも
重要です。
# ヒストグラム
> hist(x, right=FALSE, col="gray")
# ドット図
> stripchart(x, pch=16, at=0, method="stack")
# 箱ひげ
> boxplot(x)
両側検定と片側検定
違うということだけを検定する場合、両側検定を用います。
いずれの方が大きい、効果が上がったという程度も含めた
違いを検定する場合は片側検定を用います。
今回は両側検定を行いました。
まとめ
平均の検定をする時に標本の数が2つ以下で標本の母分散が等しい場合は
t検定を使います。
今回は標本数が1つの場合だったので、1標本の平均の検定となります。