記事の内容
『完全独習 統計学入門』という本があります。
著者は、小島寛之です。
統計学の本質である 帰納的推論(部分から全体を推測する) を誤魔化さずに言語化してくれています。
とてもありがたい本だな、と感じます。
ですので、要約・読書メモとしてこの記事にまとめたいです。
本書では、検定・区間推定の本質を説明するために、過去と未来の区別を意識して、著者独自の概念 「予言的中区間」 が登場します。
統計的推測がなんだか分からない人、以下のような混乱ポイントが少しでも気になる人は、ぜひこの記事、本を読んでみてください。
統計学の混乱ポイント?
- 統計は過去の出来事を記述する、一方、確率は未来の出来事を記述する。
- 推測統計での違和感「もはや過去のものとして得られているデータをあたかも未来に出現するものであるかのように扱う」
記事のレベル感としては、正規分布の特徴がわかる人向けです。
本書オリジナルの概念「予言的中区間」
正規分布がちょっとわかっている人向けの説明になります。
- データが正規分布に従うことがわかっているとき、正規分布の特徴を使うことによって、次に得られるデータを予言できる。(例えば、平均値に近いデータは出現しやすい。)
- これは未来のデータに関する記述である。
- この予言は、次に得られるデータXの範囲を
a <= X <= b
という不等式の形で行う。 - つまり、区間で予言するのだ。
この予言を著者は、予言的中区間と呼ぶ。本書オリジナルの言葉だ。
観測されるデータを95%の確率で的中させる予言をとくに、95%予言的中区間という。
(95%という確率は統計でよく使われる。)
実際の計算例
具体的にいうならば、データx
が、平均値μ
で標準偏差がσ
の正規分布に従う場合の95%予言的中区間は、
-1.96 \leqq \frac{x - μ}{σ} \leqq 1.96
を解いて得られる範囲である。
(この不等式は正規分布の性質から簡単に求められます。)
ここまで、とくに厄介な解釈はいらない。
この予言的中区間という概念を使うと、検定・区間推定をより自然に理解することができる。それが著者の狙いだ。
検定
仮設検定の進め方
一つのデータから母集団を推測する。
このときに使う考え方が仮説検定だ。
「予言的中区間」を使えば、仮説検定の考え方はとても自然に理解できる。
- 観測したデータxから、母集団について知りたい。
- 母数がNである、という仮説を立てる。
- 母数Nとして、予言的中区間を作る。
- そうして作った予言的中区間に、今観測したデータxは含まれるか?
含まれるとき
予想の範囲内。
母数がNという仮説は捨てきれない。妥当な可能性として残す。
含まれないとき
2パターンの可能性がある。
①母集団に関する仮説は正しく、覚悟をしていたリスク(5%の確率でしか起こらない稀な出来事)が起こってしまった。
②母集団に関する仮説が正しくない。
統計学では、②を採用する。「仮説を棄却する」と言う。
仮設検定のまとめ
妥当な仮説かどうか、95%予言的中区間で検証しているわけです。
予言的中区間という概念を明示することで、仮設検定がとても自然に感じます。
仮設検定の注意
結論は、消極的にしか利用できないことに注意。
否定にのみ、強く使える。
一方、採用には、単にその可能性を積極的には棄却できない、という緩い結論になる。
仮設検定は帰納的推論である
仮設検定の推論形式は、部分から全体を推論する帰納的推論である。
95%予言的中区間を使うならば、常に、間違う可能性が5%ついてまわる。
このように、統計学の中核には帰納的推論があるという点が、演繹的推論がベースにある普通の数学と異なるところだ。
練習問題
p97の練習問題の設定を引用します。
N枚のコインを投げて、表が57枚出た。
N=100と仮説を立てる。
この仮説が棄却されるかどうか確かめよう。
このとき、表がでる枚数は、
・平均 N / 2 = 50
・標準偏差 √N / 2 = 5
として、正規分布で近似できる。
表の枚数xの95%予言的中区間を作る。
-1.96 \leqq \frac{x - 50}{5} \leqq 1.96
解くと、
40.2 \leqq x \leqq 59.8
この範囲にx=57は入る。よって、N=100という可能性は棄却されない。
区間推定 検定から区間推定h
区間推定という作業
- さまざまな母数の仮説をたて、その都度、仮説検定する。
- すると、棄却されずに残った母数たちが得られる。
- その母数たちが、区間となる。この区間をNの信頼区間と呼ぶ。(95%予言的中区間を検定に使うならば、Nの95%信頼区間と呼ぶ。)
この作業が区間推定である。
ここまで、とても自然に理解できると思う。
よくある誤解 95%信頼区間の確率の意味
初学者が誤解しやすい点にも本書は注意を払ってくれる。
95%信頼区間は、「95%のデータがその区間に入っている」という意味ではないことに注意。
母数N
・すでに確定しているが未知
・Nが異なれば母集団そのものも異なる
・確率的に数値が出るのは、母数Nではなく、観測値。
ゆえに、本当の正しい母数Nが生き残る確率は、各々の観測値に対して、どれも0.95
。
「区間推定を続けるなら、さまざまな観測値に対してさまざまな区間が求まるが、それら100回のうち95回は正しい母数を含んでいる」
という意味。
練習問題
血圧検査は、検査する人の癖や聴覚次第で、ある程度まちまちになることが知られている。
今、血圧検査で自分の血圧を測ってもらうときの血圧をxとすると、xは実際の血圧μを平均とし、標準偏差6の正規分布をするとしょう。
このとき、計測された血圧が130であったとしたら、あなたの実際の血圧μはどの範囲であると推定すればよいのだろうか。95パーセント信頼区間を求めてみることにする。
母数(平均の場合)の95パーセント信頼区間はこの式で求められる。
-1.96 \leqq \frac{x - μ}{σ} \leqq 1.96
よって、分散と観測値を代入して、μについてとけばいい。
-1.96 \leqq \frac{130 - μ}{6} \leqq 1.96
関連記事