統計等でよく出てくる 平均、偏差、分散、標準偏差、偏差値について、数式で整理してみました。なお、母集団 と 標本 という概念もあるため、それぞれ分けてまとめてみました。
1. 平均(Mean)
1.1. 母集団平均(Population Mean)
$$
\mu=\frac{1}{N}\sum_{i=1}^{N}x_i
$$
- $\mu$:母集団の平均
- $N$:母集団のデータ数
- $x_i$:母集団の各データ点
1.2. 標本平均(Sample Mean)
$$
\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i
$$
- $\bar{x}$:標本の平均
- $n$:標本のデータ数
- $x_i$:標本の各データ点
2. 偏差(Deviation)
2.1. 母集団偏差(Population Deviation)
$$
d_i=x_i-\mu
$$
- $d_i$:母集団の偏差
- $x_i$:母集団の各データ点
- $\mu$:母集団の平均
2.2. 標本偏差(Sample Deviation)
$$
d_i=x_i-\bar{x}
$$
- $d_i$:標本の偏差
- $x_i$:標本の各データ点
- $\bar{x}$:標本の平均
3. 分散(Variance)
3.1. 母集団分散(Population Variance)
$$
\sigma^2=\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu)^2
$$
- $\sigma^2$:母集団の分散
- $N$:母集団のデータ数
- $x_i$:母集団の各データ点
- $\mu$:母集団の平均
3.2. 標本分散(Sample Variance)
$$
s^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2
$$
- $s^2$:標本の分散
- $n$:標本のデータ数
- $x_i$:標本の各データ点
- $\bar{x}$:標本の平均
4. 標準偏差(Standard Deviation)
4.1. 母集団標準偏差(Population Standard Deviation)
$$
\sigma=\sqrt{\sigma^2}=\sqrt{\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu)^2}
$$
- $\sigma$:母集団の標準偏差
- $\sigma^2$:母集団の分散
- $N$:母集団のデータ数
- $x_i$:母集団の各データ点
- $\mu$:母集団の平均
4.2. 標本標準偏差(Sample Standard Deviation)
$$
s=\sqrt{s^2}=\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2}
$$
- $s$:標本の標準偏差
- $s^2$:標本の分散
- $n$:標本のデータ数
- $x_i$:標本の各データ点
- $\bar{x}$:標本の平均
分母が $n−1$ になるのは「不偏分散」として偏りを補正するためらしいです。
5. 偏差値(Standard Score)
5.1. 母集団に対する偏差値の式
$$
T=50+10\cdot\frac{x-\mu}{σ}
$$
- $T$:偏差値
- $x$:1つのデータ
- $\mu$:母集団の平均
- $\sigma$:母集団の標準偏差
5.2. 標本に対する偏差値の式
$$
T=50+10\cdot\frac{x-\bar{x}}{s}
$$
- $T$:偏差値
- $x$:1つのデータ
- $\bar{x}$:標本の平均
- $s$:標本の標準偏差
偏差値は基本的に「標本」に対して使うものらしいです。全体(母集団)を推定するための指標として使われるらしいです。
以上