0.はじめに
大学で統計学の講義を受講している者です。
用語や概念をまとめて以下の項目に分類しています。
統計学学習全体像
【統計学】概要
【統計学】度数・偏差・分散
【統計学】係数・回帰
【統計学】集計表
【統計学】集団・標本
【統計学】分布
【統計学】期待値・推定・信頼度
【統計学】統計的検定
1.度数
頻繁さを表したもの
頻繁さ(度数)を表した表のこと "度数分布表" と呼ばれる
シンプルに個数を算出した数値を表す
累積度数
度数を累積したもの、加算し算出する
相対度数
個々の数のことを "度数" と呼ぶ
度数 ÷ 合計の数で求められる
%(パーセント)表示もある
累積相対度数
相対度数と同じ
累積度数を全体で割ったもの
観測度数
生データ
実際のデータとして得られた値のこと
期待度数
行要素の合計や列要素の合計の比率から逆算して期待される度数
計算方法:求めたい列要素の値/全体× 行合計
→列周辺度数/合計 × 行周辺度数
例:どの動物が好きか
猫派 | 犬派 | 合計 | |
---|---|---|---|
男性 | A | C | 30(%) |
女性 | B | D | 70(%) |
合計 | 60(%) | 40(%) | 100(%) |
Aの期待度数を求めたい場合は 60/100 × 30
よって男性の猫派の期待度数は 18
周辺度数
行と列それぞれの合計部分の値のこと
表記法はn . 1
とドット(.)
を用いて列⇒行の順で表記する
n.i
であればi列目の度数合計値、ni.
であればi行目の度数合計値
度数を用いた指標
カイ二乗値
観測度数と期待度数の乖離を用いて導く指数
偏りがあるデータかどうか確認することができる
計算方法:(観測度数A - 期待度数A)^2/観測度数A + (観測度数B - 期待度数B)^2/観測度数B....
乖離の大きさを表しており、連関の大きさの一つの目安になり得る
デメリットとして総度数が大きくなるとピアソンのカイ二乗値の上限が異なる
そのままでは比較できないためなんらかの調整が必要
クラメールのVで表現をする
クラメール(V)
カイ二乗値をクロス集計表の大きさで調整することにより定義した2変数間の連関の強さの指標
クラメール = \sqrt\frac{カイ二乗値}{全体数×I-1 or J-1(どちらかの最小値)}
V = \sqrt \frac{X^2}{N × Min(I -1, J-1)}
Min(I-1,J-1)
はどちらか小さい方を採用し全体数N
と掛ける
クラメールの範囲
2変数に連関が無い場合はV=0
2変数が完全に連関している場合はV=1
最小値V=0
→最大値V=1
として表す
95%信頼区間を求めることは可能だが
パラメータの信頼区間を求めることが必要の為少々困難となる
効果量
これまでは連関の大きさを比較対象として見ていた
クラメール及びオッズ比は連関の強さを表す指標として用いるもの
仮説検定が示す内容に対してこれら変数間の関係や効果を表す指標を効果量という
レポートなどで用いる場合は仮説検定+効果量とワンセットで示すのがよい
2.偏差
偏差 = 平均値-個数値
平均との差のこと
平均値 - 個数値においてマイナスになる場合があるため偏差値を2乗することが必要
(マイナスの偏差はプラスの偏差によって±0と相殺されてしまうため)
偏差平方
偏差平方 = 偏差^2
偏差を2乗したもの
偏差平方が大きいほど平均値よりかけ離れた個数が存在する
平均値より離れている個体が多いかどうかを調べることができる
標準偏差(SD)
標準偏差 = \sqrt{分散}
偏差平方和 ( SS )
偏差平方和 = 全個体値 - 全平均
全ての個体値 - 全ての平均を偏差平方和という
分散は全ての個体値 - 全ての平均 / 全体数
によって値を算出する
社会統計学においては標本を利用するため値の算出方法が異なる
n-1
を全体数とし全ての個体値 - 全ての平均/全体数-1
で算出している
偏差平方和はバラツキそのものの大きさと考えられる
大きいほどバラツキは大きい
配列のようにグループ化したもので複数集団にわたる全個体のバラツキを定義する
平方和
群間平方和:グループ間
群集団のバラツキのこと
全体平均値をý
とするため全体の平均値を引くところに注意
郡内平方和:個人間
例:iさんの値について考える
iさんの値は集団2に属している
最終目標としては①の総和を求めたい
-
ý
:グループ間の平均 -
ý2
:集団2の平均
集団2の平均をý2
とすると、iさん個人間の差は3のy21 - ý2
となる・・・A
さらに集団2の平均値はグループ全体で考えるとý
と差がある
ý
はグループ間の平均、②ý2 - ý
でグループ間の平均の差が求められる・・・B
②と③(上部A + B)を合わせることで①の総平方和が求められる
検定統計量
群間平方和を郡内平方和で割ったものが検定統計量となる(以下参考
偏差を用いた指標
シグマの法則
平均値 ± 1 × 標準偏差で全体のおよそ68%が当てはまるという法則
平均値 ± 2 では全体の95%が当てはまる
標準化
標準化 = \frac{偏差}{標準偏差}
偏差を標準偏差で割り単純化したもの
値を比較するために平均との大小関係の距離や散らばりの大きさを加味するもの
標準得点値Z = データ値X - 平均値x̄」 / 標準偏差σ(シグマ)
3.分散(V(x)、σ²)
分散 = \frac{偏差平方総合計}{個数}
偏差平方の平均のこと
分散が大きいほど散らばりの幅が大きい
例:テストAよりテストBのほうがちらばりが大きい、よって分散が高い
分散の平方根が標準偏差
そのため√V(x)、√σ²は標準偏差
共分散
共分散 = X偏差 × Y偏差 ÷ 全体個数
2つの変数の関連の強さを表した指標
偏差同士を掛け合わせて全体数で割ったもの
偏差は平均との差のこと
計算例:変数AとBの共分散を求め傾向を理解する
A | B | |
---|---|---|
1 | 6 | 20 |
2 | 7 | 30 |
3 | 14 | 66 |
平均 | 9 | 38 |
(6-9)*(20-38) +(7-9)*(30-38) +(14-9)*(66-38)
= 210
つまり正の関係があるためAの値が上がるとBの値が上がるということが分かる
不適切な変換
仮にAの変数が時間単位で算出されており分数変換×60
した値を共分散した場合
結果の値が大幅に変化してしまう
単純な数値変換は適していない
分数用の表を使用し再び回帰分析計算を行う必要がある
共分散のデメリットを補った係数が相関係数
確率との関係性
離散型確率変数、連続型確率変数に関する分散の関係性をみる
離散型確率変数の分散
分散の計算方法は平均と値の差の二乗の平均で求められる
V(x) = Σ(ai - μ)² * pi
Σ()²で偏差平方(平均との差の二乗)を出し確率を掛けることで分散が求められる
以下に変形する
V(x) = Σa² * pi - μ²
これは以下と同一である
V(x) = E(x²) - \left\{
\begin{array}{ll}
E(x)
\end{array}
\right\}^2
「2乗の期待値 - 期待値の2乗」で離散型確率変数の分散は求められる
これは離散型確率変数の分散も同様である
不偏分散(U)
関数
U = VAR.S(値の範囲)
標本から母集団の分散を推定するために用いられる指標
標本分散は通常の分散と同じく、(平均 - 値)²
の総和を×1/n
することで求められる
だが標本分散は不偏推定量ではない(偏りがない推定量とは言えない)
一方、不偏分散は偏りがない不偏推定量といえる
不偏分散は1/n-1
とn-1
で割ることで求められる
- 標本分散:データのバラツキを表すために用いられる
- 不偏推定量:偏りがない推定量のこと
なぜn-1で割るのか
分散は小さくなる傾向がある
-1で割ることにより母数が小さくなるのを防いでいる
分散分析
分散分析は基本的に3つ以上変数があるものを対象とする