はじめに
この記事は統計検定2級合格への道 〜その①〜の続編です。
この記事は「改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎」を参考に、私が学んだ内容をまとめたものです。
指標
以下に様々な指標の定義を記載する。式中で用いる変数の定義は以下の通りである。
$x_{i},y_{i},z_{i}$:各観測値
$n$:データ数
平均
平均 \bar{x}={1 \over n}\sum_{i=1}^{n}x_{i}
(算術)平均。全観測値の「重心」を表す。
分布が、ある軸で左右対称である場合には、観測量の中心を表す値として、分布をよく表す指標となるが、
非対称性が強い場合には、あまり良い指標とはならなくなる。
分散
分散 s^{2}={1 \over n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}
分散は、各観測値の平均からのずれ(偏差)$(x_{i}-\bar{x})$の二乗の平均として計算される。
(二乗は、正負の値の散らばりを同じ様に評価するために導入される。)
分散は分布のばらつき具合を表す。
標準偏差
標準偏差 s=\sqrt{{1 \over n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}
標準偏差は、分散の平方根として計算される。
平均は観測値の1次から計算されるため、観測値と同じ次元を持つ(=観測値と平均値を比較することができる)。
しかし、分散は観測値の2次から計算されるため、観測値と比較することはできない。
観測値と次元を揃え、比較を行うために、分散の平方根である標準偏差を導入する。
標準偏差も分散と同様に分布のばらつき具合を表す指標である。
標準化得点
標準化得点 {{x_{i}-\bar{x}} \over s}
標準化得点は、観測量を平均が0、標準偏差が1の分布にマッピングした場合の値を示す。
標準化得点は無次元化された値であるため、この値を導入することで、別の観測量との比較が容易になる。
例えば、身長と体重の標準化得点が共に1.0であるならば、その人の身長と体重は平均よりも標準偏差1つ分大きいということが分かり、
また、身長の標準化得点が負で、体重の標準化得点が正である場合、その人は集団の中では太っている方であるということが分かる。
変動係数
変動係数 CV = {s \over \bar{x}}
変動係数は、標準偏差を平均で割った値と定義され、平均値に対する分布の散らばり具合を表す。
この値も標準化得点と同様に無次元量であるため、観測量間の比較を行うために導入される。
中央値
観測値を昇順に並べた場合に、ちょうど真ん中になる値。データ数が奇数の場合は、ちょうど真ん中の値を中央値とし、偶数の場合は真ん中に近い2つの値の平均値を中央値とする。
分布が、ある軸を中心に完全に左右対称となる場合、中央値は平均値と一致する(対称軸の値が平均値・中央値となる)。
最頻値
その観測量で、最も多く観測された値。
分布が1つの峰のみを持っている場合には有効な値になるが、2つ以上の峰を持っている場合にはあまり意味がない値となる。
分布が、ある軸を中心に完全に左右対称であり、かつ、1つの峰のみを持つ場合、平均値・中央値と共に、対称軸の値が最頻値となる。
範囲、四分位数
範囲 R = {\rm max}(\{x_{i}\}) - {\rm min}(\{x_{i}\})
範囲は、観測値の(最大値 - 最小値)と定義される。
四分位範囲 IQR = Q3 - Q1
観測量を昇順に並べ、25%点、50%点、75%点をそれぞれ$Q1, Q2, Q3$とおく。これらをそれぞれ第1四分位数、第2四分位数(=中央値)、第3四分位数と呼ぶ。
四分位範囲は、中央値から前後25%に含まれる値の範囲を示し、
この値を2で割った値を四分位偏差と呼ぶ。
分布が左右対称な場合は、位置の指標として「平均」を用い、散らばりの指標として「標準偏差」を用いる。
分布が左右非対称な場合は、位置の座標として「中央値」を用い、散らばりの指標として「四分位範囲」を用いる。
外れ値
観測値の中で、他の値と比較して極めて小さい or 大きい値を外れ値と呼ぶ。
外れ値であるか否かの判定は、観測量毎に行う必要がある。
(Q1 - 1.5 \times IQR) \leq x_{i} \leq (Q3 + 1.5 \times IQR)
上記の範囲から外れる値を外れ値とする方法が一般的に利用されている。
相関
2つの観測量の関係を相関と呼ぶ。
一方の観測量が大きくなるにつれて、他方の観測量が大きくなる場合、これら2つの観測量には正の相関があるといい、逆に、小さくなる場合は負の相関があるという。
一方の観測量の増減に対して、他方の観測量の増減に何の傾向も見られない場合は、無相関という。
擬相関(見かけ上の相関)
2つの観測量のデータを散布図などにプロットすることで、それらの観測量の相関を明らかにすることができる。
しかし、これら2つの観測量の間に「本当に」相関があるかどうかは分からない。
以下の(偏った)データを用いて、この点について説明する。
家賃 | 間取り | 地域 |
---|---|---|
45,000円 | 1K | 京都 |
52,000円 | 1DK | 京都 |
60,000円 | 1LDK | 京都 |
78,000円 | 1R | 東京 |
80,000円 | 1R | 東京 |
85,000円 | 1K | 東京 |
上記は、東京(の23区内)と京都(の田舎)の部屋の間取りと家賃をまとめたデータである。
東京の家賃はアホみたいに高く、京都は人情味溢れ、住む人に優しい値段設定となっている。
上記のデータの内、家賃と間取りの2つの観測量だけに注目すると、
これら2つの観測量には負の相関がある、すなわち、「部屋が小さくなるにつれて家賃が上がる」という、現実とはかけ離れた結論が導かれる。
これは、「家賃と間取りの相関」よりも「家賃と地域の相関」が強く、また、データに偏りがある(京都の1Rのデータや東京の1DK、1LDKのデータが欠如している)ことにより、
現実には、間取りと家賃は正の相関があるはずが、「見かけ上は」負の相関があるように振る舞ってしまう。
このような、別の観測量との強い相関によって、「本当の」相関とは異なって現れる相関を擬相関と呼ぶ。
相関係数(ピアソンの積率相関係数)
相関係数は、相関の強さを表す値であり、2つの観測量の共分散によって定義される。
共分散 s_{xy}={1 \over n}\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})
共分散は、$(x_{i}-\bar{x})(y_{i}-\bar{y})$の平均と定義される。
$(x_{i}-\bar{x})(y_{i}-\bar{y})$は、2つの観測量が「共に」平均よりも大きい or 小さい場合に正の値になり、そうではない場合は負の値になる。この式の振る舞いは相関の定義と一致する。
相関係数 r_{xy}={s_{xy} \over s_{x}s_{y}}
相関係数は無次元化されており、-1から1の値をとる。相関係数の正負は正の相関・負の相関を表しており、その値は相関の強さを表す。
偏相関係数
先の相関係数の定義では、擬相関の場合に「本当の」相関を見抜くことができない。
2つの観測量の相関が擬相関であるという疑いがある場合は、以下の偏相関係数を計算し、検討する。
r_{xy \cdot z}={r_{xy}-r_{yz}r_{xz} \over \sqrt{1-r_{yz}^{2}}\sqrt{1-r_{xz}^{2}}}
上式では、
$x,y$:擬相関の疑いがある2つの観測量
$z$:相関が強い観測量
を指す。
オッズ比
質的変数のクロス集計表から観測量間の関係を議論することができる。
具体的に、以下の2つのクロス集計表(各セルに該当するデータの度数を示した表)を用いて説明する。
家賃が安い | 家賃が高い | |
---|---|---|
部屋が狭い | 57 | 8 |
部屋が広い | 22 | 53 |
家賃が安い | 家賃が高い | |
---|---|---|
駅から近い | 36 | 33 |
駅から遠い | 43 | 28 |
クロス集計表の各セルの度数をたすき掛けした値をオッズ比と定義する。
家賃と部屋の広さのオッズ比は(57 × 53) / (8 × 22)=17.2となる。
これは、部屋が狭いことにより家賃が安くなることが、広い場合に比べて17.2倍となる(部屋が小さい方が、その物件が「家賃が安い」に分類される確率が17.2倍高い)ことを表している。
また、家賃と駅からの近さのオッズ比((36 × 28) / (33 × 43)=0.71)に比べ、部屋の広さのオッズ比が大きいことから、家賃には、駅からの距離よりも部屋の大きさの方がより影響を及ぼすことが分かる。
おわりに
TeXで数式書くのが懐かしすぎる。\overとか\sqrtを覚えてたことに感動した。
少しセンチメンタルな気分でこの記事を書きました。