はじめに
データのばらつきを評価する指標として、分散、標準偏差、絶対偏差(平均絶対偏差, MAD)があります。これらはそれぞれ異なる特徴を持ち、状況に応じて使い分けることが重要です。本記事では、これらの指標の違い、使い分け方、そして視覚的な意味について説明します。
分散とは
定義
分散は、データのばらつきを評価するための基本的な指標で、データとその平均値との差の二乗の平均を指します。これは次の式で表されます。
$$
\sigma^2 = E[(X - \mu)^2] = \int_{-\infty}^{\infty} (x - \mu)^2 f(x) , dx
$$
この式で
$$
E[(X - \mu)^2]
$$
は、偏差の二乗の期待値を意味します。つまり、データの各点 X と平均 μ との差を二乗し、その平均を取ることでデータ全体のばらつきを評価します。
分散の式の意味
分散を求める際に出てくる次の式を分解して考えてみます。
$$
\sigma^2 = \int_{-\infty}^{\infty} x^2 f(x) , dx - 2\mu \int_{-\infty}^{\infty} x f(x) , dx + \mu^2 \int_{-\infty}^{\infty} f(x) , dx
$$
この式は、次の3つの項に分かれます。第一項の
$$
\int_{-\infty}^{\infty} x^2 f(x) , dx
$$
はデータの二乗の期待値で、データ全体の大きさを測る指標です。第二項の
$$
-2\mu \int_{-\infty}^{\infty} x f(x) , dx
$$
はデータの平均値 ( \mu ) の影響を取り除くための補正項です。第三項の
$$
\mu^2 \int_{-\infty}^{\infty} f(x) , dx
$$
はデータ全体のバランスを取るための基準点としての役割を果たします。
標準偏差とは
定義
標準偏差は、分散の平方根を取ったもので、次の式で表されます。
$$
\sigma = \sqrt{E[(X - \mu)^2]} = \sqrt{\sigma^2}
$$
標準偏差を使うことで、データのばらつきを元のデータと同じ単位で表すことができ、直感的に理解しやすくなります。
特徴
- 大きな偏差を強調: 標準偏差は、偏差を二乗してから平均を取るため、平均から大きく離れたデータ点の影響が強調されます。
- データの単位に一致: 標準偏差は元のデータと同じ単位で表されるため、解釈が容易です。
絶対偏差(平均絶対偏差, MAD)とは
定義
絶対偏差(MAD)は、データの偏差の絶対値の平均を取ったもので、次の式で表されます。
$$
\text{MAD} = E[|X - \mu|] = \int_{-\infty}^{\infty} |x - \mu| f(x) , dx
$$
特徴
- リニアな評価: 偏差の絶対値を取ることで、データのばらつきをリニアに評価します。
- 外れ値の影響が少ない: 標準偏差よりも外れ値の影響が抑えられ、全体的なばらつきを穏やかに反映します。
標準偏差と絶対偏差の使い分け
標準偏差を使う場合
- データのばらつきが大きく、外れ値の影響を考慮したいとき。
- データが正規分布に従っている場合や、ばらつきの指標として一般的な手法を用いたいとき。
- 複数のデータセットのばらつきを比較する場合。
絶対偏差を使う場合
- 外れ値の影響を抑えた評価が求められる場合。
- データが分布の形状に大きく依存しない場合や、リニアなばらつきを簡単に評価したいとき。
- より簡単で迅速な計算が必要な場合。
視覚的意味の違い
- 標準偏差: データの中心からの広がりを示します。標準偏差が大きいほど、データが広がっている(ばらついている)ことを意味します。外れ値がある場合、その影響が大きくなります。
- 絶対偏差: データの中心からの距離の平均を示します。外れ値の影響を抑え、全体のばらつきを穏やかに示します。
まとめ
分散、標準偏差、絶対偏差は、データのばらつきを評価するための重要な指標です。標準偏差は外れ値の影響を強調するため、外れ値を重視する場合に適しています。一方、絶対偏差は外れ値の影響を抑えた評価ができるため、全体のばらつきを穏やかに示したい場合に有用です。状況に応じて、適切な指標を選択することが大切です。