以下の統計検定2級対策動画で用いられているスライドの一部です。
平均は同じなのに、何が違う?
ここに、2つのカフェの平日5日間のコーヒー販売数のデータがあります。
- カフェA: 48杯, 50杯, 51杯, 52杯, 54杯
- カフェB: 35杯, 45杯, 51杯, 60杯, 64杯
一見すると、カフェAは安定しているように見え、カフェBは日による差が大きいように見えます。
まず、このデータをグラフで見てみましょう。
データの可視化
1. 平均値を計算してみる
まず、両カフェの平均販売数を計算します。
-
カフェAの平均値
$$
\bar{x}_A = \frac{48 + 50 + 51 + 52 + 54}{5} = \frac{255}{5} = 51 \text{杯}
$$ -
カフェBの平均値
$$
\bar{x}_B = \frac{35 + 45 + 51 + 60 + 64}{5} = \frac{255}{5} = 51 \text{杯}
$$
驚くことに、両カフェの平均販売数は 全く同じ です。
平均値だけでは、データの「 ばらつき 」は分かりません。
2. ばらつきを数値化する:「偏差」
データのばらつきを測るための第一歩が「 偏差 」です。
偏差 とは、個々のデータが平均値からどれだけ離れているかを示す値です。
$$
偏差 = 個々のデータの値 - 平均値
$$
この「偏差」を使って、各カフェのデータを見てみましょう。
偏差の計算例 (カフェA)
カフェAの平均値は 51 杯でした。
日 | 販売杯数(x) | 偏差 (x - 51) |
---|---|---|
1 | 48 | -3 |
2 | 50 | -1 |
3 | 51 | 0 |
4 | 52 | 1 |
5 | 54 | 3 |
合計 | 255 | 0 |
偏差の計算例 (カフェB)
カフェBの平均値も同じく 51 杯でした。
日 | 販売杯数(x) | 偏差 (x - 51) |
---|---|---|
1 | 35 | -16 |
2 | 45 | -6 |
3 | 51 | 0 |
4 | 60 | 9 |
5 | 64 | 13 |
合計 | 255 | 0 |
偏差の問題点
お気づきでしょうか?
偏差をすべて合計すると、プラスとマイナスが打ち消し合い、必ず0になってしまいます。
これでは、ばらつきの大きさを1つの指標として表すことができません。
この問題をどう解決すればよいでしょうか?
3. 解決策:「分散」
偏差の合計が0になる問題を解決するため、統計学ではシンプルな方法を取ります。
偏差を2乗する
値を2乗すれば、マイナスの値もプラスになり、合計が0になることはありません。
そして、 2乗した偏差の平均値 を計算します。
これが 分散 です。
分散の計算例 (カフェA)
偏差を2乗して、その合計と平均(分散)を求めます。
日 | 販売杯数(x) | 偏差(x - 51) | 偏差の2乗 |
---|---|---|---|
1 | 48 | -3 | 9 |
2 | 50 | -1 | 1 |
3 | 51 | 0 | 0 |
4 | 52 | 1 | 1 |
5 | 54 | 3 | 9 |
合計 | 255 | 0 | 20 |
カフェAの分散
$$
V_A = \frac{20}{5} = 4
$$
分散の計算例 (カフェB)
同様に、カフェBの分散も計算します。
日 | 販売杯数(x) | 偏差(x - 51) | 偏差の2乗 |
---|---|---|---|
1 | 35 | -16 | 256 |
2 | 45 | -6 | 36 |
3 | 51 | 0 | 0 |
4 | 60 | 9 | 81 |
5 | 64 | 13 | 169 |
合計 | 255 | 0 | 542 |
カフェBの分散
$$
V_B = \frac{542}{5} = 108.4
$$
分散の比較:結論
- カフェAの分散: 4
- カフェBの分散: 108.4
分散を比較すると、カフェBの方が圧倒的に数値が大きいことが分かります。
これは、カフェBの方が日々の販売数のばらつきが大きいことを示しています。
これで、ばらつきを客観的な数値で比較できました。
分散の課題
分散は便利な指標ですが、一つ欠点があります。
計算の過程で 2乗 しているため、元のデータの単位も 2乗 になってしまう。
今回の例で言えば、分散の単位は「杯」ではなく「 杯の2乗 」です。
これでは、値がどれくらいの大きさなのか、直感的に解釈しにくいです。
4. 解決策:「標準偏差」
分散の「単位が2乗になる」問題を解決するのが 標準偏差 です。
標準偏差 とは、分散の 正の平方根 をとったものです。
平方根を計算することで、単位を元のデータと同じに戻すことができます。
$$
\text{標準偏差} = \sqrt{\text{分散}}
$$
標準偏差の計算例
実際に、2つのカフェの標準偏差を計算してみましょう。
-
カフェAの標準偏差
$$
s_A = \sqrt{4} = 2 \text{ (杯)}
$$ -
カフェBの標準偏差
$$
s_B = \sqrt{108.4} \approx 10.41 \text{ (杯)}
$$
単位が「杯」に戻り、より直感的にばらつきの大きさを理解できるようになりました。
まとめ①:偏差
ここまでの内容を一般化して定義を確認しましょう。
偏差 とは、個々のデータが平均値からどれだけ離れているかを示す値です。
-
計算式
偏差 = 個々のデータの値 - 平均値
-
特徴
- 平均より大きければ プラス 、小さければ マイナス
- 全ての偏差を合計すると 常に0 になる
まとめ②:分散
分散 とは、偏差を2乗した値の平均値です。データのばらつきの大きさを表します。
-
計算式
- データ数を $n$、個々のデータを $x_i$、平均値を $\bar{x}$ とすると、分散 $V$ は...
$$
V = \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2
$$
- データ数を $n$、個々のデータを $x_i$、平均値を $\bar{x}$ とすると、分散 $V$ は...
まとめ③:標準偏差
標準偏差 とは、分散の正の平方根です。元のデータと単位が同じになり、解釈しやすくなります。
-
計算式
- 標準偏差 $s$ は...
$$
s = \sqrt{V} = \sqrt{\frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2}
$$
- 標準偏差 $s$ は...
(補足)なぜ「n-1」で割る?
統計の教科書では、分散を $n$ ではなく $n-1$ で割る 不偏分散 が出てくることがあります。
-
分散(標本分散): 分母が $n$
- 手元にあるデータ(標本) そのもの のばらつきを知りたい場合
-
不偏分散: 分母が $n-1$
- 手元にあるデータ(標本)から、その背景にある 大きな集団(母集団) のばらつきを 推定 したい場合
「全体を推測するときは補正が必要」と覚えておきましょう。
全体のまとめ
-
偏差
- 平均からの距離。合計は常に0。
-
分散
- 偏差を2乗して平均したもの。ばらつきの大きさを表す。
-
標準偏差
- 分散の平方根。単位が元に戻り、解釈しやすい。
平均値と合わせてこれらを確認することで、データをより深く理解できます。