今日は検定の中に出てくる 自由度 (degree of freedom) について補足します。
自由度の定義
自由度とは自由に設定できる余地のある値の数を指します。
ある政策について市民の過半数が賛成しているかどうかを調査するために 500 人をサンプルとして抽出、調査をおこなった。その結果、賛成率は 53% (265 人) であった。この結果をもとに市民全体の過半数が賛成しているかどうか検定をしたい。
平均値の検定の場合、標本サイズ -1 がそれに相当します。たとえば標本が 4 ケースでその平均が 5 だったとき、 4 ケースのうち 3 つまでの値は任意に決定することができますが、最後の 4 ケース目の値は平均が 5 になるよう選択の余地なく決定してしまうことになります。たとえば他の 3 つが 2, 6, 8 で全体の平均が 5 だとしたら (2 + 6 + 8 + X) / 4 = 5 ですから X = 4 です。このとき、自由度は 3 になります。
サンプルサイズが ∞ に近づくほど t 分布が正規分布に近づきます。 t 検定は大規模データを扱う場合は Z 検定とほぼ等価となります。
上の例題を解くと
仮説 | 説明 |
---|---|
帰無仮説 | 母集団における賛成率が 50% である (π = 0.5) |
対立仮説 | 母集団における賛成率は 50% を超える (π > 0.5) |
有意水準 α = 0.05 としたとき限界値は 1.645 となります。
z = \frac {\sqrt{(0.5 × 0.5) / 500}} {0.53-0.5} = 1.34
1.34 < 1.645 なので帰無仮説が棄却されず、市民の過半数が賛成しているとは言えません。
検定への応用例
国民の 1 日あたり睡眠時間平均は 7 時間 33 分、その標準偏差は 1 時間 41 分であるというデータがあります。調査対象の人数は 15121 人です。(国民生活時間調査 2005) 果たしてこれは日本人の平均睡眠時間は 8 時間より少ないと言える調査結果でしょうか。
このサンプルのサイズは N = 15121 です。時間を分に直すと平均 453 、標準偏差は 101 です。
仮説 | 説明 |
---|---|
帰無仮説 | 母集団 (日本人全体) における平均睡眠時間は 8 時間 (480 分) である |
対立仮説 | 母集団 (日本人全体) における平均睡眠時間は 8 時間 (480 分) ではない |
先程は 片側検定 (one-tailed test) であったのに対し、今度は 両側検定 (two-tailed test) となります。
有意水準 α = 0.05 、さらに標本平均の分布は自由度は 15121 - 1 = 15120 の t 分布に従います。自由度が 120 を超える場合は ∞ として扱いそれと有意水準 α = 0.05 と交差する 1.960 が限界値になります。
実際のデータに基づく検定統計量 t を求めるために必要な標準誤差を求める母分散が不明なので、その推定値として標本における不偏分散 s^2 (標準偏差 101^2) を利用し次式で求めます。
t_{(N-1)} = \frac {\overline{x} - \mu_{[H_0]}} {\sqrt{s^2/N}} = \\
\frac {453 - 480} {\sqrt{101^2 / 15121}} = \\
-32.87
絶対値が 1.960 を超えているので、帰無仮説が棄却され、日本人の平均睡眠時間は 8 時間では無いと言えます。
参考
社会統計学入門 (放送大学教材)
http://www.amazon.co.jp/dp/4595313705