0
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

データの散らばりを測る指標

Last updated at Posted at 2020-08-15

範囲(range)

範囲とは、最大値-最小値で求められる値です。外れ値の影響を大きく受けます。

四分位範囲

データを小さい方から大きい方へ順番に並べて、A%に位置する値をAパーセンタイルと言います。
特にデータを小さい方から大きい方へ順番に並べて4等分した時、最初の1/4の値を第1四分位数Q1(25パーセンタイル)、1/2の値を第2四分位数Q2(50パーセンタイル)、3/4の値を第3四分位数Q3(75パーセンタイル)と言います。

Aパーセンタイル順位=(データの個数+1)\times \frac{A}{100}
Q_1の順位=(データの個数+1)\times \frac{1}{4}
Q_2の順位=(データの個数+1)\times \frac{1}{2}
Q_3の順位=(データの個数+1)\times \frac{3}{4}
  • 四分位範囲IQR▶︎Q3-Q1・全データの中央50%を含む
  • 四分位偏差QD▶︎(Q3-Q1)/2

四分位偏差は、Q1とQ3が中央値Q2からどれだけ離れているかを示す指標であり、四分位偏差が小さいほどQ2付近にデータが集中しているためデータの散らばりが小さく、四分位偏差が大きいほどQ2付近にデータが集中していないためデータの散らばりが大きいです。

【補足 -四分位偏差の密度とデータの散らばりの比例関係-】
四分位偏差(四分位範囲)が大きいと、箱ひげ図の箱の部分は大きくなります。「Q1とQ3が中央値Q2から大きく離れている」四分位偏差が大きいAの箱ひげ図の方が、箱の密度が小さく、データの散らばりは大きいです

https___qiita-image-store.s3.amazonaws.com_0_71557_c416100a-acb3-2397-868e-1ab70442936d.png

画像引用:gnuplotでヒートマップと箱ひげ図

箱ひげ図

箱ひげ図は、中央値・最小値・最大値・第1四分位数Q1・第3四分位数Q3の5つのデータをグラフで表示し、「データの中心・散らばりの大小・分布の歪み・外れ値の有無」などを示すものです。

  • データの中心▶︎中央値の位置で判別
  • 散らばりの大小▶︎箱ひげ図全体の長さ・四分位範囲を示す箱自体の長さで判別
  • 分布の歪み▶︎箱と最大値・最小値の位置関係で判別
  • 外れ値の有無▶︎「Q1-1.5×IQR」をひげの下限、「Q3+1.5×IQR」をひげの上限とした時に、ひげの上下限を超過した値の有無で判別

下の画像のA・B・C・Dの4区間にそれぞれ同じ個数のデータが入っていること、箱であるB-C区間の四分位範囲IQRに全データの50%が入っていること、の2点は注意すべき点です。

94ed160662be198949535a112047e9b4.png

画像引用:4-2. 箱ひげ図の見方 | 統計学の時間 | 統計WEB - BellCurve

箱ひげ図と外れ値

箱ひげ図では多くの場合、ひげの長さを「四分位範囲IQRの1.5倍」とし、ひげの下限を**「Q1-1.5×IQR」・ひげの上限を「Q3+1.5×IQR」**と設定します。このひげの上限・下限を超過したデータを「外れ値」として扱います。

外れ値が存在する場合は、ひげの上限・下限を超えた部分に◯や×の印で表されます。また外れ値が存在する場合、ひげの下限は「Q1-1.5×IQR」より大きい領域内での最大値、ひげの上限は「Q3+1.5×IQR」より小さい領域内での最小値となります。(上限・下限は、データ全体での最大値・最小値という訳ではない)

平均偏差

平均偏差MDは、偏差の絶対値を取り、その合計をデータの個数nで割ったものです。データの散らばりを調べる上で、標準偏差に比べて平均偏差は数学的に扱いにくく、実際にはあまり使用されていません。

平均偏差=\frac{|x_1-\bar{x}|+|x_2-\bar{x}|+…+|x_n-\bar{x}|}{n}
=\frac{1}{n}\sum_{i=1}^{n} |x_i-\bar{x}|

分散

分散は、データの散らばりの大きさを表す指標で、個々のデータと算術平均の差である偏差を2乗し、それらを合計した値をデータの個数(データの個数から1を引いた値)で割る、つまり偏差平方和をnで割ることによって求められます。
分散はデータを2乗するため、単位は付きません(無名数・無次元数である)。

  • 分散が小さいほど、平均に近いデータが多い(データの散らばりが小さい)
  • 分散が大きいほど、平均から遠いデータが多い(データの散らばりが大きい)
母分散σ^2=\frac{1}{n} \sum_{i=1}^{n} (x_i-\mu)^2
標本分散s^2=\frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})^2

不偏分散

標本から母集団の特性値を推測する「推測統計学」の分野において、標本分散は母分散の推定値にはならない(標本分散 < 母分散)ことが証明されており、偏差平方和をn-1で割る不偏分散が母分散の正しい推定値になるとされています。

不偏分散=\frac{1}{n-1} \sum_{i=1}^{n} (x_i-\bar{x})^2

標本分散と不偏分散は、どちらも標本の分散でありますが、標本分散は**「標本のデータの散らばりを表す」時に使用され、不偏分散は「標本から母集団のデータの散らばりを表す」**時に使用されます。

標準偏差

標準偏差は、分散の正の平方根として求められます。分散は無名数(無次元数)でありますが、標準偏差は元のデータと同じ単位(次元)を持つため、データの散らばりの大きさを評価する際には、扱いやすい標準偏差がよく用いられます。

母標準偏差σ=\sqrt{σ^2}=\sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i-\mu)^2}
標本標準偏差s=\sqrt{s^2}=\sqrt{\frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})^2}

3σのルール

3σのルール(68–95–99.7則)とは、正規分布において、**平均値μを中心に±σ・±2σ・±3σ(平均±標準偏差)**の幅で範囲を取った際に、データがそれぞれ68.27%、95.45%、 99.73%の割合で含まれるという経験則です。

The+Normal+Distribution.jpg

画像引用:Statistics. - ppt video online download

「3σのルール」は、データが正規分布に従わないどのような分布である場合でも、チェビシェフの不等式により μ±2σ の範囲に少なくとも約75%のデータが、μ±3σ の範囲に少なくとも約89%のデータが含まれることが分かっています。

チェビシェフの不等式
確率変数Xの平均μ、標準偏差σ、任意の数k(k>0)において以下の不等式が成り立つ。

P(|X-\mu|\geq kσ) \leq \frac{1}{k^2}

変動係数

変動係数CVは、標準偏差σを平均値μで割った値です。
変動係数を用いることで、対象の異なる2つの集団の散らばりの程度を相対的に比較することができます。

変動係数CV=\frac{σ}{\mu}

標準得点

標準得点には、標準化変量z(z得点)と偏差値(Z得点)の2種類が存在します。
標準得点を用いることで、母集団の中における個々のデータの相対的な位置を比較することができます。

標準化変量z

標準化変量z(z得点)は、平均が0・標準偏差が1になるように変換した得点です。
偏差(z-μ)を標準偏差で割ることによって求められます。

z=\frac{x-\mu}{σ}

偏差値

偏差値(Z得点)は、平均が50・標準偏差が10になるように変換した得点です。

偏差値=z×10+50

歪度

歪度は、データの分布の歪み・左右対称性を示す指標です。

歪度=\frac{n}{(n-1)(n-2)}×\sum_{i=1}^{n}(\frac{x-\bar{x}}{s})^3
=\frac{E[(X-\mu)^3]}{σ^3}

statistic1.gif

画像引用:グラフと算術平均、中央値、最頻値: 統計学ーその基本と応用ー

歪度とグラフの分布の関係は以下のようになります。

  • 分布が左右対称(正規分布)▶︎歪度 = 0
  • 右に裾が長い分布▶︎歪度 > 0
  • 左に裾が長い分布▶︎歪度 < 0

尖度

尖度は、データの山の尖り度と裾の広がり度を示す指標です。
正規分布の尖度を0とする定義と、3とする定義があることに注意が必要です。

尖度=\frac{n(n+1)}{(n-1)(n-2)(n-3)}×\sum_{i=1}^{n}(\frac{x_i-\bar{x}}{s})^4-3\frac{(n-1)^2}{(n-2)(n-3)}
=\frac{E[(X-\mu)^4]}{σ^4}-3

この定義式の場合、尖度とグラフの分布の関係は以下のようになります。

  • 分布が正規分布▶︎尖度 = 0
  • 正規分布より尖っている分布▶︎尖度 > 0
  • 正規分布より尖っていない(平らな)分布▶︎尖度 < 0

参考文献

0
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?