0.はじめに
大学で統計学の講義を受講している者です。
用語や概念をまとめて以下の項目に分類しています。
統計学学習全体像
【統計学】概要
【統計学】度数・偏差・分散
【統計学】係数・回帰
【統計学】集計表
【統計学】集団・標本
【統計学】分布
【統計学】期待値・推定・信頼度
【統計学】統計的検定
1.統計的検定
母数の値について仮説をたて標本統計量の値から判断すること
但しその主張が正しいか誤りかは断定ができない
つまり間違いの確率を大きく減らす必要がある
- 標本調査:標本の結果から母集団の特性を推測すること
誤差
誤差の範囲?
実際にデータを見て誤差と認められる範囲なのかが問われる
その誤差はたまたま起こりうるだけだったのかもしれないという点を考慮しなければならない
例:コインを投げて表が多く出た
投げ方のクセ
でそうなったのかもしれない
よって誤差の範囲を越えなければ変化したとは言えず、範囲を超えた場合 "変化した" となる
誤差についての考え方
無作為標本A
とB
がある
A
とB
の平均値を計算すると得られる値は以下の2点
- 標本平均:
XA
、XB
- 標本分散:
S²A
、S²B
それぞれ対応する母集団の平均μA、μB
が正しいかどうか比べたい
ただ母集団の平均は全数調査などしない限り分かり得ない....
そこで標本平均を観測できる手がかりとして使用する。理由として、
- 差が分かれば一つの指標になるから
- 標準化を行うことで統一的に行える指標が得られるから
前提がいくつかあるが無作為抽出をした場合や標本サイズが大きい場合は母集団の平均値は標本平均と同等の扱いをすることができる
厳密には同等のものではないが、期待値は確率変数の平均的な値を示すため母集団の平均は期待値に相当する
分散や標準偏差(平方根を取ったもの)等は以下図
標準化式
標準化式 = \frac{(標本平均A-標本平均B)-(標本平均A-標本平均Bの期待値)}{\sqrt{標本平均A-標本平均Bの標準偏差}}
仮に帰無仮説を立てる場合、無作為標本A
とB
の間には差はない = 等しいだろうと立てることができる
差はないだろうと考える仮説のため両者をイコール(=)で考える必要がある
よって以下図のような式に変換する
それぞれ記号について補足
σ
値が明確な場合(母分散が既知)と不明な場合がある
不明な場合は標本分散S²A、S²Bに置き換えて差し支えない
しかし、小標本の場合に置き換えた場合は誤差が大きくなってしまうので適切とは言えない
t検定
母分散の値を標本分散に置き換えできない小標本の場合に利用する検定
2つの条件がある
- 母集団はそれぞれ正規分布している
- 2つの母集団の分散
σ²A、σ²B
は等しい(σ²A = σ²B)
と考える
共通の分散(σ²)
として置く
検定統計量
検定統計量 = \frac{標本平均A - 標本平均B}{標本標準誤差\sqrt{\frac{1}{標本Aの大きさ}+\frac{1}{標本Bの大きさ}}}
t = \frac{\bar{X_A}-\bar{X_B}}{S\sqrt{\frac{1}{n_A}+\frac{1}{n_B}}}
σ
をS
に置き換えた場合の値をt
とする
この値t
を検定統計量という
自由度
制約の度合いを表す概念のこと
自由度の変動によりパラメータが変動する
自由度が大きいほど正規分布に近づく
2.統計的検定の手順
1.標本分布・標本統計量を特定する
例として「コインが歪んでいるかどうか」調べる時など
- 標本統計量:コインで表が出る回数
- 標本分布:二項分布
2.統計的仮説(帰無仮説 or 対立仮説)を設定する
- 統計的仮説:母集団の特性に関する仮説のこと
-
帰無仮説(H₀)
間違っているのではないかと疑われる仮説のこと
例:コインは歪んでいない -
対立仮説(H₁)
帰無仮説が誤りであるときに想定する命題
例:このコインは歪んでいるだろう
帰無仮説と対立仮説についての復習は以下
3.帰無仮説が正しい時の標本分布を特定する
二項分布、t分布等を特定する
4.帰無仮説が誤りとする判断基準を設定する
具体的に設定した水準αよりも小さい確率でしか生じないことを稀な出来事と判断する
このαを有意水準という
-
有意水準
帰無仮説を棄却する基準となる指標
帰無仮説を棄却するかどうか判断するための材料
この水準を基に帰無仮説の正否を判断する
5%が慣例的である
有意水準の出現率が高かった
稀な出来事ではない、帰無仮説を棄却せず採用する
有意水準の出現率が低かった
稀な出来事であると考えられるため、帰無仮説を棄却し対立仮説を採用する
5.判断基準と標本統計量を比較し帰無仮説の正否をジャッジする
帰無仮説が正しいとしたときの標本分布のもとで、標本で得られた結果が生じる出現確率pを計算する。この確率pを有意確率という
背理法を使用し考える。p値が、
有意水準より大きければ
、稀な出来事ではない
有意水準より小されば
、稀な出来事である
Excel関数などで正規分布表を元に求める
慣例的には両側検定で有意水準5%
の場合は1.96
よって絶対値が臨海値1.96よりも大きい or 小さければ帰無仮説を棄却する
有意確率
帰無仮説のもとで得られた検定統計量が実現する確率のこと
標本で得られた結果が生じる出現確率のこと
帰無仮説が棄却されやすい条件
標本の大きさが非常に大きい場合は棄却されやすい
3.統計的検定に誤りがある場合?
全体の一部のデータをもとに判断をするのが統計的検定
有意水準を利用し判断する
がこれは人間の判断のもと行うため謝る可能性がある
標本平均値は母集団の一部であり、あくまで正否を判断する材料(標本から得られたデータの為)
真偽を確かめる場合であれば全数調査をするしかない
誤りには2種ある
第一種の過誤
対立仮説を採用してしまうケース
帰無仮説が正しいが、偶然が重なり非常に微量の確率で帰無仮説が棄却されてしまう場合
本来は帰無仮説が正しいが、否定し対立仮説を採用
第二種の過誤
帰無仮説を採用してしまうケース
対立仮説が正しいが、誤って帰無仮説を棄却しなかった場合
本来は対立仮説が正しいが帰無仮説を棄却せず採用
よって両者はトレードオフの関係性
第一の過誤の確率を小さくすれば第二種の過誤が大きくなる関係性がある
逆も然り
4.両側仮説・片側仮説
〇〇について低くなった / 高くなったと
仮説が立てられる場合には片側検定が相当
高いか低いか仮説が立てにくい場合は両側検定を用いるのが一般的
例:内閣支持率について
両側検定の場合
内閣支持率は50%ないであるという場合に用いる
両側検定の考え方
有意水準5%
の場合
5%÷2 = 2.5%
高い or 低い場合の部分を置き判断する
黒い部分に入れば稀であるため帰無仮説が棄却される
片側検定の場合
内閣支持率は50
よりも高い or 低い このような場合に用いる
片側検定の考え方
片方に5%
を置き判断する
左片側検定・右片側検定と「片方のみ」を意識する検定法
無相関検定
無相関係数 = \frac{相関係数}{標準誤差}
t = \frac{r_xy}{\hat{S}r} = \frac{r_xy\sqrt{n-2}}{\sqrt{1-r^2_xy}}
相関係数の検定のこと
仮に帰無仮説が真(母相関係数は0であり差は全くない)と置いたとしても
標本誤差によって標本相関係数は0
ではない値をとる可能性がある
母相関係数と標本相関係数の値にはズレが生じており、このズレは正規分布しt分布に近似する
標準誤差
標本誤差 = \sqrt\frac{1-相関係数}{自由度-2}
S_r= \sqrt\frac{1-r^2_xy}{n-2}
母数Pxy
を用いる算出方法があるが母数が未知の場合は相関係数rxy
を使用する
計算例
1.無相関係数を求め両側検定を行う
無相関係数が計算により3.985
であった
この値をt値
としt分布に近似するため両側検定を行う
2.関数T.DIST.2Tを用いる
自由度が20
の場合、t分布を用いるため20-2
よって18
を引数に用いる
= T.DIST.2T(3.985,18)
結果は0.00097...
となる
3.結論
帰無仮説を棄却
有意水準0.05
を下回っており帰無仮説を棄却する結果となる
また、母相関係数は0とはいえないことが分かる
補足として臨界値を置止める計算方法でも可能、その場合は関数T.INV.2T
を用いる
非線形な関係は相関係数で検出ができない
例として学習時間が多ければ多いほどテストの点数が良くなる
だが無限によくなるとは限らない、長時間学習すれば疲れるためテストの点数が悪くなる可能性もある
このような事例は相関係数で測ることはできない