学習サイト
統計web
分散
- データがどのぐらい平均の周りにバラついているかを表したもの
- 分散が小さいほど、データの値は平均値に集まっており、大きいほどデータの値が平均値からバラついていることを表す
-
分散と平均を足したり、比較したりすることができない点を注意しなければいけない
- 理由としては、以下に示すが各データを2乗したものを用いているためである
例:ある実験を行い、次の2つのデータが得られた。AもBもどちらも平均は3.5であるが、この2つのデータのばらつき具合は似ていると言えるか
データA | データB |
---|---|
1 | 3.5 |
2 | 3.5 |
3 | 3.5 |
4 | 3.5 |
5 | 3.5 |
6 | 3.5 |
合計=21 | 合計=21 |
平均=3.5 | 平均=3.5 |
以下の3つの値を用いて、2つのデータの平均値からのばらつき具合を比較する
- 「平均値からの各データ」の平均値
- 「平均値からの各データの差の絶対値」の平均値
- 「平均値からの各データの差の2乗」の平均値
1. 「平均値からの各データ」の平均値
したの表は平均値とそれぞれのデータとの差をまとめたものである
データA | 平均値からの差 | データB | 平均値からの差 |
---|---|---|---|
1 | 2.5 | 3.5 | 0 |
2 | 1.5 | 3.5 | 0 |
3 | 0.5 | 3.5 | 0 |
4 | -0.5 | 3.5 | 0 |
5 | -1.5 | 3.5 | 0 |
6 | -2.5 | 3.5 | 0 |
合計=21 | 合計=0 | 合計=21 | 合計=0 |
平均=3.5 | 平均=0 | 平均=3.5 | 平均=0 |
この差の平均はデータAもデータBも0であった
ここで算出した「平均値と各データの差」のことを偏差という
- 「平均値より大きいデータの偏差の和」と「平均値より小さいデータの偏差の和」が打ち消しあうために、偏差の和は常に0である
- したがって、この方法ではデータのばらつきを比較することはできない
2. 「平均値からの各データの差の絶対値」の平均値
比較する値が必ず0以上となるように平均値とそれぞれのデータとの差の絶対値の平均を考えてみる
データA | 平均値からの差の絶対値 | データB | 平均値からの差の絶対値 |
---|---|---|---|
1 | 2.5 | 3.5 | 0 |
2 | 1.5 | 3.5 | 0 |
3 | 0.5 | 3.5 | 0 |
4 | 0.5 | 3.5 | 0 |
5 | 1.5 | 3.5 | 0 |
6 | 2.5 | 3.5 | 0 |
合計=21 | 合計=9 | 合計=21 | 合計=0 |
平均=3.5 | 平均(=平均偏差)=1.5 | 平均=3.5 | 平均(=平均偏差)=0 |
絶対値をつけた偏差の平均は、データAの1.5の方がデータBの0より大きいことから、データAの方が平均値からばらつき具合が大きいことがわかる。
- この値を平均偏差と呼ばれる
しかし、絶対値の計算は絶対値記号を外すために場合わけをする必要があるため、数学的に面倒であるというデメリットがある
「平均値からの各データの差の2乗」の平均値
- 最後に、各データと平均の差を2乗したものの平均を考える
- 二乗しているため、必ず0以上となる
- 分散はここに該当する
n個のデータをx_i(i = 1, 2, ・・・, n)、その平均値を\bar{x}とすると、分散の公式は以下の通りである
V = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2
今回の例題のAの場合で実際に求めようとすると、以下の手順で求めることになる
1. 各データの平均値からの差を求める
(1 - 3.5), (2 - 3.5), (3 - 3.5), (4 - 3.5), (5 - 3.5), (6 - 3.5)
2. 1で算出した値をそれぞれ2乗する
(1 - 3.5)^2, (2 - 3.5)^2, (3 - 3.5)^2, (4 - 3.5)^2, (5 - 3.5)^2, (6 - 3.5)^2
3. 2で算出した値を全て足す
(1 - 3.5)^2 + (2 - 3.5)^2 + (3 - 3.5)^2 + (4 - 3.5)^2 + (5 - 3.5)^2 + (6 - 3.5)^2
4. 3で算出した値をデータ数で割る=分散
{(1 - 3.5)^2 + (2 - 3.5)^2 + (3 - 3.5)^2 + (4 - 3.5)^2 + (5 - 3.5)^2 + (6 - 3.5)^2} \div 6 = 2.9
上記の通り計算を行うとデータA、データBの分散は次のようになる
\displaylines{
・データAの分散:V_A = 2.9 \\
・データBの分散:V_B = 0
}
したがって、データAの方がデータの値が平均値からばらついていることが証明された
標準偏差
- standard deviation
- SDと訳されることもある
- 分散の平方根
- 分散の正の平方根であることから分散を以下のように表すこともある
\sigma^2
- これにより、分散ではできなかった足したり比較したりすることができるようになる
\displaylines{
標準偏差 = \sqrt{分散} \\
\sigma = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}
}
先ほどの分散の標準偏差を考えると以下の通りである
\displaylines{
・データAの標準偏差:\sigma_A = 1.7 あるいは SD_A = 1.7 \\
・データBの標準偏差:\sigma_B = 0 あるいは SD_B = 0
}
標準偏差を見ても、分散とう同様にデータAの方が大きいことから、データAの方がデータBよりもばらついていることがわかる