0.はじめに
大学で統計学の講義を受講している者です。
用語や概念をまとめて以下の項目に分類しています。
統計学学習全体像
【統計学】概要
【統計学】度数・偏差・分散
【統計学】係数・回帰
【統計学】集計表
【統計学】集団・標本
【統計学】分布
【統計学】期待値・推定・信頼度
【統計学】統計的検定
1.係数
相関係数
相関係数 = 共分散 ÷ (標準偏差X)×(標準偏差Y)
関連の強さが分かる係数
共分散との違いは測定単位を変換したとしても値が変化しないような便利な係数
-1~1
の間に表される係数
1
であるとき関連の強さは最大となる
-0.5
と+0.5
は関連の強さは同一
相関係数を用いた無相関検定がある(以下参考)
決定係数(R^2)
どの程度適合されているか表す係数
回帰分析において得た回帰式がどれほど適合されているのか示したい場合に用いる
分散説明率R^2
とも表現される
実測値は予測値と残差の合計によってできた値である
実測値 = 残差+予測値
全体(実測値における分散値)のうち回帰式で算出できた一部(予測値における分散値)
の割合を適合度としたとき、Sy2(実測値)はSe2(残差)とSy2(予測値)が組み合わさっている
<計算方法>
残差を除いて考えると全体÷予測値で適合度の算出が可能
予測値 ÷ 実測値
例)100(実測値) = 20(残差) + 80(予測値!)
100を実測値、80を予測値とした場合80 / 100 = 0.8
予測値は80%適合している
残差を利用する場合1 - (残差÷全体)で算出が可能
1 - (20 /100 )
1 - 0.2 = 0.8
予測値は80%
適合している
独立変数が1つの場合相関係数を2乗したものが決定係数
偏相関係数
疑似関係を明らかににするために使われる係数
従来の2つの要素の間に新たな変数が関係しているのではないかという疑問が生まれる
相関関係⇒疑似関係が明らかになった際、相関係数が変動する
<計算式イメージ>
xとyの間に相関係数があったが新たにzの独立変数が登場する
- 元々あった相関係数
(x⇔y)
から新たに出現した独立変数(x⇔z × y⇔z)
との相関係数を引き差分を表す- 全体1から新たに出現した独立変数zとの相関係数の差分を平方根で示し掛け合わせる
- ①を②で割る
決定係数における残差の考え方と類似する
全体から差分を引き利用することで新たに出現した独立変数との関係性を導き出すイメージ
rxy・z
はzで統一した場合のx,yの相関係数
ここでは0.28
の偏相関係数が算出
元々の-0.22
という相関係数があったが第三変数zを用いて偏相関係数を算出したことにより
0.28
という正の関係である係数が算出された
統制変数
第三変数のこと、疑似関係で言うと要素AとBの間に新たに発見された要素Cのこと
統制するとは
第三変数の影響を取り除く=影響を一定にするということ
第三変数で統制する = 第三変数を取り除く
オッズ
オッズ = 事象Aの起こりやすさ ÷ 事象Bの起こりやすさ
連関係数のうちの一つで関係性を把握できる指標
起こりやすさを表すことができる
- A ÷ B = オッズ>1 :Aが起こりやすい
- A ÷ B = オッズ<1 :Bが起こりやすい
解が1以上の場合Aが起こりやすく、1以下の場合はBが起こりやすい
オッズ比
オッズ比 = オッズA ÷ オッズB
何倍ほど発生がしやすいのかを表す数値
オッズA:10
、オッズB:5
の場合はオッズA
の方がオッズBより2倍起こりやすい
- A ÷ B = オッズ比>1 :Aが〇倍Bより発生しやすい
- A ÷ B = オッズ比<1 :Bが〇倍Aより発生しやすい
例
(310×160)/(90×440)=1.2525..
オッズ比は1.25
尚、たすき掛けでも計算が可能
男性でのオッズは0.775/0.225=3.44...
女性でのオッズは0.773/0.267=2.75
男性オッズ3.44/2.75 = 1.2525...
となる
対数オッズ比(ln Ψ)
値aの自然対数とし ln(a)とするときの関数
=exp(a)
負の連関を極限∞
とするようなオッズ比のこと
オッズ比は標本統計量のため分布はする、だが左右非対称ではない
正の連関は無限大まで発散するが負の連関は0になるため非対称となる
場面によっては対数オッズ比を使用することがある
ファイ係数
正か負か連関関係を見ることができる
-1~1
の間に値が収まる
1 | 2 |
---|---|
A | B |
C | D |
ファイ係数 = \frac{対角線A, Cの積 - 対角線B, Dの積}{周辺度数を全て掛けた平方根}
相関係数と同様に-0.5
と+0.5
は同等の強さであり1が最大の連関がある
正の連関がある程x1
の方がx2
よりもy1
負の連関がある程x2
の方がx1
よりもy1
となる
2.回帰
回帰分析モデル数式
テストの点数(y)とするとき、切片 + 傾き × 勉強時間(x)から成る
y = a + bxを用いた数式
y:従属変数
説明の対象とする変数、ここではテストの点数とする
x:独立変数
説明の原因となる変数、ここでは勉強時間とする
<計算方法>
傾きの算出
y = a + bx の傾きbは切片と生データ内の値x,yから求める
切片の算出
y = a + bx の切片aはx = 0の時のyの値である
回帰分析の直線は、散布図内の正確な位置を通るわけではない
全ての点を通るわけではなく実際の予測値と実測値との間にある残差が生まれる
残差を求めるために最小二乗法が用いられる
最小二乗法
残差を最小限に留めるため使用するもの
xを求めたからと言ってyの実測値を正確に求めることはできないため使用する
この計算をすることにより回帰式を求められる
残差
実測値と予測値の差のこと
回帰分析においてxの変数を求めるためyの予測値を予測するが実際の実測値とは差が生じる
残差を明確化することにより適合度を考える手がかりになる
適合度とは性格な回帰直線が描けるかどうかというもの
回帰係数(b)
傾き
回帰モデル式
予測値yを求める式
予測値を求める(実測値とは異なる)為この式に元データのx値を代入しy値を出した場合は実測値のy値とは異なる
予測となる為データの実測値と予測値の残差が限りなく小さいほうが望ましい
<計算方法>
切片 = y(予測値) - bx(傾き×独立変数)
これは回帰分析モデル式と一緒、y = a+ bxならばa + bx = y , a = y - bx
傾き = 相関係数 × (y標準偏差 ÷ x標準偏差)
この傾きを回帰係数という
しかしながら回帰モデル式も共分散同様に単位に依存し値が変化してしまうのが難点
標準回帰係数(β)
標準化して求めた回帰係数
ベータ係数(β)
とも呼ばれる
変数は単位に依存し値が変わる為共分散の値が変化してしまった
この難点を改善するため相関係数を利用した
同じように回帰式においても単位に依存し変数が変化してしまう
標準化をすることで変数が変化してもデータ単位に依存されずに係数として表すことができる
この係数を標準回帰係数という
標準化とは