0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

標本歪度 と 標本尖度入門_統計検定2級対策

0
Posted at

以下の統計検定2級対策動画で用いられているスライドの一部です。


なぜ「平均」だけでは不十分?

データ分析では、まず平均値や標準偏差を見ることが多いです。
しかし、これらの指標が ほぼ同じ でも、データの分布形状が 全く異なる ことがあります。

  • データ群A: 左右対称のきれいな山形の分布
  • データ群B: 左に偏り、右に長く伸びる分布

分布の「形」を正しく理解することが、適切な分析と解釈の第一歩です。


今回学ぶこと

データ分布の 「形」 を数値で評価する2つの指標を学びます。

  1. 歪度(わいど)

    • 分布の 非対称性 を測る指標
  2. 尖度(せんど)

    • 分布の 尖り具合裾の重さ を測る指標

具体例で見てみよう!

あるIT部門に所属する従業員8人の通勤時間データを使って、分布の形を調べてみましょう。

データ (分): [15, 20, 20, 25, 30, 35, 40, 95]

このデータをグラフにすると、どのようになるでしょうか?


通勤時間データの分布

image.png


Step 1: 分布の「非対称性」を測る

まず、この分布が左右対称なのか、どちらかに偏っているのかを数値で評価します。
この指標が 歪度(わいど) です。


歪度の計算 (1/3) : 平均と偏差

  1. 平均値 ($\bar{x}$) の計算
    $\bar{x} = (15+20+20+25+30+35+40+95) \div 8 = 35$

歪度の計算 (1/3) : 平均と偏差

  1. 偏差 ($x_i - \bar{x}$) の計算
    各データが平均からどれだけ離れているかを計算します。
通勤時間 ($x_i$) 偏差 ($x_i - \bar{x}$) 偏差の3乗 ($(x_i - \bar{x})^3$)
15 -20 -8000
20 -15 -3375
20 -15 -3375
25 -10 -1000
30 -5 -125
35 0 0
40 5 125
95 60 216000
合計 0 200250

歪度の計算 (2/3) : 分散と標準偏差

  1. 分散 ($s^2$) と 標準偏差 ($s$) の計算
    データの散らばり具合を計算します。
    • 分散 $s^2 = \frac{4600}{8} = 575$
    • 標準偏差 $s = \sqrt{575} \approx 23.98$

歪度の計算 (3/3) : 歪度の算出

  1. 3次のモーメントの計算
    偏差の3乗の平均を求めます。
    $200250 \div 8 = 25031.25$

  2. 歪度の計算
    3次のモーメントを標準偏差の3乗で割ります。
    $歪度 = \frac{25031.25}{23.98^3} \approx 1.81$


歪度の結果と解釈

計算結果は 歪度 $\approx$ 1.81 となりました。

  • 歪度 > 0 なので、これは 「正の歪み」 を持つ分布であることを示します。
  • グラフで言うと、中心が左に寄り、右側に裾が長く伸びている 状態です。
  • 今回のデータでは、95分という外れ値が分布全体を右に引っ張っていることが原因です。

Step 2: 分布の「尖り具合」を測る

次に、分布の山の「尖り具合」と「裾の重さ」を評価します。
この指標が 尖度(せんど) です。


尖度の計算 (1/2) : 偏差の4乗

尖度の計算には 偏差の4乗 を使います。
4乗することで、平均から遠い値(外れ値)の影響がさらに強調されます。

通勤時間 ($x_i$) 偏差 ($x_i - \bar{x}$) 偏差の4乗 ($(x_i - \bar{x})^4$)
15 -20 160000
20 -15 50625
... ... ...
95 60 12960000
合計 0 13232500

尖度の計算 (2/2) : 尖度の算出

  1. 4次のモーメントの計算
    偏差の4乗の平均を求めます。
    $13232500 \div 8 = 1654062.5$

  2. 尖度の計算
    4次のモーメントを分散の2乗で割ります。
    $尖度 = \frac{1654062.5}{575^2} \approx 5.00$


尖度の結果と解釈

計算結果は 尖度 $\approx$ 5.00 となりました。

  • 尖度は、正規分布の尖度である 3 を基準に評価します。
  • 5.00 > 3 なので、これは 「急尖(きゅうせん)」 な分布であることを示します。
  • つまり、正規分布よりも 頂点が鋭く尖り、裾が重い(外れ値の影響が大きい) 分布です。

一般化と定義:歪度とは?

ここまでの内容を一般化します。

歪度 は、データ分布の 非対称性の度合い を示す指標です。

  • 歪度 > 0 (正の歪み)
    • 右側に裾が長く伸びる分布。平均値 > 中央値。
  • 歪度 = 0 (歪みなし)
    • 完全に左右対称な分布(例:正規分布)。平均値 = 中央値。
  • 歪度 < 0 (負の歪み)
    • 左側に裾が長く伸びる分布。平均値 < 中央値。

歪度の公式

歪度は、偏差の3乗の平均(3次のモーメント)を、標準偏差の3乗で割って算出します。

$$
歪度 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^3}{s^3}
$$

偏差の3乗 を計算するため、平均から大きく離れた値(外れ値)があると、その影響が強く反映されます。


一般化と定義:尖度とは?

尖度 は、データ分布の 「尖り具合」と「裾の重さ」 を示す指標です。

  • 尖度 > 3 (急尖)
    • 正規分布より鋭く尖った分布。裾が重い(外れ値が多い)。
  • 尖度 = 3 (中尖)
    • 正規分布と同じ程度の尖り具合。
  • 尖度 < 3 (緩尖)
    • 正規分布より平坦な分布。データが広範囲に散らばる。

尖度の公式

尖度は、偏差の4乗の平均(4次のモーメント)を、標準偏差の4乗(分散の2乗)で割って算出します。

$$
尖度 = \frac{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^4}{s^4}
$$

偏差の4乗 を計算するため、外れ値の存在を歪度よりもさらに鋭敏に捉えることができます。


まとめ

  • 平均値や分散だけでは、分布の「形」はわからない。
  • 歪度 は分布の 非対称性 を示す。
  • 尖度 は分布の 尖り具合裾の重さ を示す。

これらの指標をヒストグラムと合わせて確認することで、
データへの理解が深まり、より確かな分析へと繋がります。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?