i). データポイントのばらつき(標準偏差)
まず、データポイントのばらつきを計算する。これがサンプルの標準偏差 ( s )。
例)あるクラスの学生のテストの点数を考える。以下のデータがあるとする:
$$
{85, 90, 88, 92, 87}
$$
-
平均((\bar{X}))を計算:
$$
\bar{X} = \frac{85 + 90 + 88 + 92 + 87}{5} = 88.4
$$ -
各データポイントと平均の差を二乗し、その平均を取る(分散):
$$
\text{分散} = \frac{(85 - 88.4)^2 + (90 - 88.4)^2 + (88 - 88.4)^2 + (92 - 88.4)^2 + (87 - 88.4)^2}{5} = 6.64
$$ -
分散の平方根を取る(標準偏差):
$$
s = \sqrt{6.64} \approx 2.58
$$
この標準偏差 ( s ) は、個々のデータポイントのばらつきを示している。
ii). サンプル平均のばらつき(標準誤差)
次に、サンプル平均が母平均がからどれくらいばらつくかを計算する。これが標準誤差。
- 標準誤差の公式を使う:
$$
\text{標準誤差} = \frac{s}{\sqrt{n}}
$$
ここで、( s ) はサンプルの標準偏差、( n ) はサンプルサイズ。この例では、( s = 2.58 ) で、( n = 5 )。
- 標準誤差を計算:
$$
\text{標準誤差} = \frac{2.58}{\sqrt{5}} \approx 1.15
$$
この標準誤差は、サンプル平均のばらつきを示している。サンプルサイズが大きくなると、標準誤差は小さくなり、サンプル平均が母平均に近づくことを示す。
標準誤差の計算:一度のサンプリングで十分な理由
標準誤差は「サンプリングを繰り返す」という理論的な前提に基づきながらも、現実の分析でサンプリングが一度しか行われない状況で計算される。
この一見矛盾した計算を可能にしているのは、標本標準偏差 ($s$) と統計学の強力な法則である。
1. 標準誤差の計算式
推定標準誤差は、以下の式で計算される。
$$\text{推定標準誤差} (s_{\bar{x}}) = \frac{\text{標本標準偏差} (s)}{\sqrt{\text{サンプルサイズ} (n)}}$$
2. 数学的な保証:中心極限定理 (CLT)
この計算式が成り立つ根拠は、中心極限定理(Central Limit Theorem, CLT)という統計学の基本定理によって数学的に証明されている。
- 定理の役割: CLTは、「標本平均のばらつき(標準誤差)」と「個々のデータのばらつき(標本標準偏差)」の間には、常に上記の**$\sqrt{n}$ で割る**という一定の関係があることを保証する。
3. 一度のサンプリングで十分な理由
- 個々のデータの情報 ($s$) を取得: 一度行ったサンプリングで、個々のデータのばらつきの大きさである標本標準偏差 ($s$) を計算する。
- 法則の適用: この $s$ に、数学的に確立された法則($\sqrt{n}$ で割る)を適用する。
- 平均のばらつきを推定: これにより、サンプリングを繰り返したと仮定した場合の標本平均のばらつき ($s_{\bar{x}}$) を、実際に繰り返すことなく、推定できるのである。
つまり、標準誤差は推定の精度を評価する指標であり、その値は、一度のサンプリングから得られたデータの特性と統計的な法則によって一意に決まるのである。
まとめ
- データポイントのばらつき: 個々のデータポイントが平均からどれだけ離れているかを示す(標準偏差 ( s ))。
- サンプル平均のばらつき: サンプル平均が母平均からどれだけ離れているかを示す(標準誤差)。
標準偏差をサンプルサイズの平方根で割ることで、サンプル平均のばらつきを正確に示すことができる。