概要
統計学では、データの中心やばらつきを数値で表すために 平均・期待値・分散・標準偏差 が用いられます。さらに、母集団を直接観測できない場合には、サンプル(標本)から計算される 標本平均・標本分散 が利用されます。
また、標本分散を補正した 不偏分散 は、母分散の推定量として重要です。これらは推測統計や仮説検定、機械学習の基礎において広く使われます。
数式
母集団の指標
-
母平均
$$
\mu = E[X] = \sum_x x , p(x) \quad (離散型), \quad \mu = \int_{-\infty}^{\infty} x f(x) dx \quad (連続型)
$$ -
母分散
$$
\sigma^2 = E\big[(X - \mu)^2\big]
$$ -
母標準偏差
$$
\sigma = \sqrt{\sigma^2}
$$
標本の指標
-
標本平均
$$
\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i
$$ -
標本分散(母分散の不偏推定量ではない)
$$
s_n^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2
$$ -
不偏分散
$$
s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2
$$ -
標本標準偏差
$$
s = \sqrt{s^2}
$$
数式の説明
-
平均・期待値
- データの中心を表す指標。
- 期待値は「確率変数の平均的な値」で、母集団の性質を表す。
-
分散・標準偏差
- データの散らばり(ばらつき)を表す。
- 標準偏差は分散の平方根で、元の単位に戻して解釈しやすい。
-
標本平均・標本分散
- サンプルデータから計算する中心・ばらつきの指標。
- 標本分散はそのままでは母分散を過小評価しがち。
-
不偏分散
- $n-1$ で割ることで母分散の 不偏推定量 となる。
- 推定量の「平均的なずれ(バイアス)」を補正している。
具体例
例1:テストの点数(母集団)
- 全員の平均点(母平均):70点
- 全員のばらつき(母標準偏差):10点
例2:クラスの一部(標本)
- 10人を抽出した標本平均:68点
- 標本分散:95
- 不偏分散:105(母分散に近づけるため補正)
このように、標本分散を使うと母集団の性質に近い推定が可能になります。
関連する数式
-
期待値の性質
$$
E[aX + b] = aE[X] + b
$$ -
分散の性質
$$
\mathrm{Var}(aX + b) = a^2 \mathrm{Var}(X)
$$ -
標本分散と不偏分散の関係
$$
E[s^2] = \sigma^2
$$(不偏分散は母分散の不偏推定量)