0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

分散と標準偏差入門_統計検定2級対策

Posted at

以下の統計検定2級対策動画で用いられているスライドの一部です。


平均は同じなのに、何が違う?

ここに、2つのカフェの平日5日間のコーヒー販売数のデータがあります。

  • カフェA: 48杯, 50杯, 51杯, 52杯, 54杯
  • カフェB: 35杯, 45杯, 51杯, 60杯, 64杯

一見すると、カフェAは安定しているように見え、カフェBは日による差が大きいように見えます。
まず、このデータをグラフで見てみましょう。


データの可視化

image.png


1. 平均値を計算してみる

まず、両カフェの平均販売数を計算します。

  • カフェAの平均値
    $$
    \bar{x}_A = \frac{48 + 50 + 51 + 52 + 54}{5} = \frac{255}{5} = 51 \text{杯}
    $$
  • カフェBの平均値
    $$
    \bar{x}_B = \frac{35 + 45 + 51 + 60 + 64}{5} = \frac{255}{5} = 51 \text{杯}
    $$

驚くことに、両カフェの平均販売数は 全く同じ です。
平均値だけでは、データの「 ばらつき 」は分かりません。


2. ばらつきを数値化する:「偏差」

データのばらつきを測るための第一歩が「 偏差 」です。

偏差 とは、個々のデータが平均値からどれだけ離れているかを示す値です。

$$
偏差 = 個々のデータの値 - 平均値
$$

この「偏差」を使って、各カフェのデータを見てみましょう。


偏差の計算例 (カフェA)

カフェAの平均値は 51 杯でした。

販売杯数(x) 偏差 (x - 51)
1 48 -3
2 50 -1
3 51 0
4 52 1
5 54 3
合計 255 0

偏差の計算例 (カフェB)

カフェBの平均値も同じく 51 杯でした。

販売杯数(x) 偏差 (x - 51)
1 35 -16
2 45 -6
3 51 0
4 60 9
5 64 13
合計 255 0

偏差の問題点

お気づきでしょうか?
偏差をすべて合計すると、プラスとマイナスが打ち消し合い、必ず0になってしまいます。

これでは、ばらつきの大きさを1つの指標として表すことができません。
この問題をどう解決すればよいでしょうか?


3. 解決策:「分散」

偏差の合計が0になる問題を解決するため、統計学ではシンプルな方法を取ります。

偏差を2乗する

値を2乗すれば、マイナスの値もプラスになり、合計が0になることはありません。
そして、 2乗した偏差の平均値 を計算します。

これが 分散 です。


分散の計算例 (カフェA)

偏差を2乗して、その合計と平均(分散)を求めます。

販売杯数(x) 偏差(x - 51) 偏差の2乗
1 48 -3 9
2 50 -1 1
3 51 0 0
4 52 1 1
5 54 3 9
合計 255 0 20

カフェAの分散
$$
V_A = \frac{20}{5} = 4
$$


分散の計算例 (カフェB)

同様に、カフェBの分散も計算します。

販売杯数(x) 偏差(x - 51) 偏差の2乗
1 35 -16 256
2 45 -6 36
3 51 0 0
4 60 9 81
5 64 13 169
合計 255 0 542

カフェBの分散

$$
V_B = \frac{542}{5} = 108.4
$$


分散の比較:結論

  • カフェAの分散: 4
  • カフェBの分散: 108.4

分散を比較すると、カフェBの方が圧倒的に数値が大きいことが分かります。
これは、カフェBの方が日々の販売数のばらつきが大きいことを示しています。

これで、ばらつきを客観的な数値で比較できました。


分散の課題

分散は便利な指標ですが、一つ欠点があります。

計算の過程で 2乗 しているため、元のデータの単位も 2乗 になってしまう。

今回の例で言えば、分散の単位は「杯」ではなく「 杯の2乗 」です。
これでは、値がどれくらいの大きさなのか、直感的に解釈しにくいです。


4. 解決策:「標準偏差」

分散の「単位が2乗になる」問題を解決するのが 標準偏差 です。

標準偏差 とは、分散の 正の平方根 をとったものです。

平方根を計算することで、単位を元のデータと同じに戻すことができます。

$$
\text{標準偏差} = \sqrt{\text{分散}}
$$


標準偏差の計算例

実際に、2つのカフェの標準偏差を計算してみましょう。

  • カフェAの標準偏差
    $$
    s_A = \sqrt{4} = 2 \text{ (杯)}
    $$
  • カフェBの標準偏差
    $$
    s_B = \sqrt{108.4} \approx 10.41 \text{ (杯)}
    $$

単位が「杯」に戻り、より直感的にばらつきの大きさを理解できるようになりました。


まとめ①:偏差

ここまでの内容を一般化して定義を確認しましょう。

偏差 とは、個々のデータが平均値からどれだけ離れているかを示す値です。

  • 計算式

    偏差 = 個々のデータの値 - 平均値
    
  • 特徴

    • 平均より大きければ プラス 、小さければ マイナス
    • 全ての偏差を合計すると 常に0 になる

まとめ②:分散

分散 とは、偏差を2乗した値の平均値です。データのばらつきの大きさを表します。

  • 計算式
    • データ数を $n$、個々のデータを $x_i$、平均値を $\bar{x}$ とすると、分散 $V$ は...
      $$
      V = \frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2
      $$

まとめ③:標準偏差

標準偏差 とは、分散の正の平方根です。元のデータと単位が同じになり、解釈しやすくなります。

  • 計算式
    • 標準偏差 $s$ は...
      $$
      s = \sqrt{V} = \sqrt{\frac{1}{n}\sum_{i=1}^{n} (x_i - \bar{x})^2}
      $$

(補足)なぜ「n-1」で割る?

統計の教科書では、分散を $n$ ではなく $n-1$ で割る 不偏分散 が出てくることがあります。

  • 分散(標本分散): 分母が $n$

    • 手元にあるデータ(標本) そのもの のばらつきを知りたい場合
  • 不偏分散: 分母が $n-1$

    • 手元にあるデータ(標本)から、その背景にある 大きな集団(母集団) のばらつきを 推定 したい場合

「全体を推測するときは補正が必要」と覚えておきましょう。


全体のまとめ

  • 偏差

    • 平均からの距離。合計は常に0。
  • 分散

    • 偏差を2乗して平均したもの。ばらつきの大きさを表す。
  • 標準偏差

    • 分散の平方根。単位が元に戻り、解釈しやすい。

平均値と合わせてこれらを確認することで、データをより深く理解できます。

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?