以下の統計検定2級対策動画で用いられているスライドの一部です。
なぜ「平均」だけでは不十分?
データ分析では、まず平均値や標準偏差を見ることが多いです。
しかし、これらの指標が ほぼ同じ でも、データの分布形状が 全く異なる ことがあります。
- データ群A: 左右対称のきれいな山形の分布
- データ群B: 左に偏り、右に長く伸びる分布
分布の「形」を正しく理解することが、適切な分析と解釈の第一歩です。
今回学ぶこと
データ分布の 「形」 を数値で評価する2つの指標を学びます。
-
歪度(わいど)
- 分布の 非対称性 を測る指標
-
尖度(せんど)
- 分布の 尖り具合 と 裾の重さ を測る指標
具体例で見てみよう!
あるIT部門に所属する従業員8人の通勤時間データを使って、分布の形を調べてみましょう。
データ (分): [15, 20, 20, 25, 30, 35, 40, 95]
このデータをグラフにすると、どのようになるでしょうか?
通勤時間データの分布
Step 1: 分布の「非対称性」を測る
まず、この分布が左右対称なのか、どちらかに偏っているのかを数値で評価します。
この指標が 歪度(わいど) です。
歪度の計算 (1/3) : 平均と偏差
-
平均値 ($\bar{x}$) の計算
$\bar{x} = (15+20+20+25+30+35+40+95) \div 8 = 35$
歪度の計算 (1/3) : 平均と偏差
-
偏差 ($x_i - \bar{x}$) の計算
各データが平均からどれだけ離れているかを計算します。
| 通勤時間 ($x_i$) | 偏差 ($x_i - \bar{x}$) | 偏差の3乗 ($(x_i - \bar{x})^3$) |
|---|---|---|
| 15 | -20 | -8000 |
| 20 | -15 | -3375 |
| 20 | -15 | -3375 |
| 25 | -10 | -1000 |
| 30 | -5 | -125 |
| 35 | 0 | 0 |
| 40 | 5 | 125 |
| 95 | 60 | 216000 |
| 合計 | 0 | 200250 |
歪度の計算 (2/3) : 分散と標準偏差
-
分散 ($s^2$) と 標準偏差 ($s$) の計算
データの散らばり具合を計算します。- 分散 $s^2 = \frac{4600}{8} = 575$
- 標準偏差 $s = \sqrt{575} \approx 23.98$
歪度の計算 (3/3) : 歪度の算出
-
3次のモーメントの計算
偏差の3乗の平均を求めます。
$200250 \div 8 = 25031.25$ -
歪度の計算
3次のモーメントを標準偏差の3乗で割ります。
$歪度 = \frac{25031.25}{23.98^3} \approx 1.81$
歪度の結果と解釈
計算結果は 歪度 $\approx$ 1.81 となりました。
- 歪度 > 0 なので、これは 「正の歪み」 を持つ分布であることを示します。
- グラフで言うと、中心が左に寄り、右側に裾が長く伸びている 状態です。
- 今回のデータでは、
95分という外れ値が分布全体を右に引っ張っていることが原因です。
Step 2: 分布の「尖り具合」を測る
次に、分布の山の「尖り具合」と「裾の重さ」を評価します。
この指標が 尖度(せんど) です。
尖度の計算 (1/2) : 偏差の4乗
尖度の計算には 偏差の4乗 を使います。
4乗することで、平均から遠い値(外れ値)の影響がさらに強調されます。
| 通勤時間 ($x_i$) | 偏差 ($x_i - \bar{x}$) | 偏差の4乗 ($(x_i - \bar{x})^4$) |
|---|---|---|
| 15 | -20 | 160000 |
| 20 | -15 | 50625 |
| ... | ... | ... |
| 95 | 60 | 12960000 |
| 合計 | 0 | 13232500 |
尖度の計算 (2/2) : 尖度の算出
-
4次のモーメントの計算
偏差の4乗の平均を求めます。
$13232500 \div 8 = 1654062.5$ -
尖度の計算
4次のモーメントを分散の2乗で割ります。
$尖度 = \frac{1654062.5}{575^2} \approx 5.00$
尖度の結果と解釈
計算結果は 尖度 $\approx$ 5.00 となりました。
- 尖度は、正規分布の尖度である 3 を基準に評価します。
- 5.00 > 3 なので、これは 「急尖(きゅうせん)」 な分布であることを示します。
- つまり、正規分布よりも 頂点が鋭く尖り、裾が重い(外れ値の影響が大きい) 分布です。
一般化と定義:歪度とは?
ここまでの内容を一般化します。
歪度 は、データ分布の 非対称性の度合い を示す指標です。
-
歪度 > 0(正の歪み)- 右側に裾が長く伸びる分布。平均値 > 中央値。
-
歪度 = 0(歪みなし)- 完全に左右対称な分布(例:正規分布)。平均値 = 中央値。
-
歪度 < 0(負の歪み)- 左側に裾が長く伸びる分布。平均値 < 中央値。
歪度の公式
歪度は、偏差の3乗の平均(3次のモーメント)を、標準偏差の3乗で割って算出します。
$$
歪度 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^3}{s^3}
$$
偏差の3乗 を計算するため、平均から大きく離れた値(外れ値)があると、その影響が強く反映されます。
一般化と定義:尖度とは?
尖度 は、データ分布の 「尖り具合」と「裾の重さ」 を示す指標です。
-
尖度 > 3(急尖)- 正規分布より鋭く尖った分布。裾が重い(外れ値が多い)。
-
尖度 = 3(中尖)- 正規分布と同じ程度の尖り具合。
-
尖度 < 3(緩尖)- 正規分布より平坦な分布。データが広範囲に散らばる。
尖度の公式
尖度は、偏差の4乗の平均(4次のモーメント)を、標準偏差の4乗(分散の2乗)で割って算出します。
$$
尖度 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^4}{s^4}
$$
偏差の4乗 を計算するため、外れ値の存在を歪度よりもさらに鋭敏に捉えることができます。
まとめ
- 平均値や分散だけでは、分布の「形」はわからない。
- 歪度 は分布の 非対称性 を示す。
- 尖度 は分布の 尖り具合 と 裾の重さ を示す。
これらの指標をヒストグラムと合わせて確認することで、
データへの理解が深まり、より確かな分析へと繋がります。
