0
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

「予言的中区間」というアイデアで検定・区間推定を自然に理解する【小島寛之の統計学入門から学ぶ】

Last updated at Posted at 2025-05-28

記事の内容 

『完全独習 統計学入門』という本があります。
著者は、小島寛之です。
image.png

統計学の本質である 帰納的推論(部分から全体を推測する) を誤魔化さずに言語化してくれています。

とてもありがたい本だな、と感じます。
ですので、要約・読書メモとしてこの記事にまとめたいです。

本書では、検定・区間推定の本質を説明するために、過去と未来の区別を意識して、著者独自の概念 「予言的中区間」 が登場します。

統計的推測がなんだか分からない人、以下のような混乱ポイントが少しでも気になる人は、ぜひこの記事、本を読んでみてください。

統計学の混乱ポイント?

  • 統計は過去の出来事を記述する、一方、確率は未来の出来事を記述する。
  • 推測統計での違和感「もはや過去のものとして得られているデータをあたかも未来に出現するものであるかのように扱う」

記事のレベル感としては、正規分布の特徴がわかる人向けです。

本書オリジナルの概念「予言的中区間」

正規分布がちょっとわかっている人向けの説明になります。

  • データが正規分布に従うことがわかっているとき、正規分布の特徴を使うことによって、次に得られるデータを予言できる。(例えば、平均値に近いデータは出現しやすい。)
  • これは未来のデータに関する記述である。
  • この予言は、次に得られるデータXの範囲をa <= X <= bという不等式の形で行う。
  • つまり、区間で予言するのだ。

この予言を著者は、予言的中区間と呼ぶ。本書オリジナルの言葉だ。

観測されるデータを95%の確率で的中させる予言をとくに、95%予言的中区間という。
(95%という確率は統計でよく使われる。)

実際の計算例

具体的にいうならば、データxが、平均値μで標準偏差がσの正規分布に従う場合の95%予言的中区間は、

-1.96 \leqq \frac{x - μ}{σ} \leqq 1.96

を解いて得られる範囲である。
(この不等式は正規分布の性質から簡単に求められます。)

ここまで、とくに厄介な解釈はいらない。
この予言的中区間という概念を使うと、検定・区間推定をより自然に理解することができる。それが著者の狙いだ。

検定

仮設検定の進め方 

一つのデータから母集団を推測する。
このときに使う考え方が仮説検定だ。

「予言的中区間」を使えば、仮説検定の考え方はとても自然に理解できる。

  • 観測したデータxから、母集団について知りたい。
  • 母数がNである、という仮説を立てる。
  • 母数Nとして、予言的中区間を作る。
  • そうして作った予言的中区間に、今観測したデータxは含まれるか?

含まれるとき

予想の範囲内。
母数がNという仮説は捨てきれない。妥当な可能性として残す。

含まれないとき

2パターンの可能性がある。
①母集団に関する仮説は正しく、覚悟をしていたリスク(5%の確率でしか起こらない稀な出来事)が起こってしまった。
②母集団に関する仮説が正しくない。

統計学では、②を採用する。「仮説を棄却する」と言う。

仮設検定のまとめ

妥当な仮説かどうか、95%予言的中区間で検証しているわけです。
予言的中区間という概念を明示することで、仮設検定がとても自然に感じます。

仮設検定の注意

結論は、消極的にしか利用できないことに注意。
否定にのみ、強く使える。
一方、採用には、単にその可能性を積極的には棄却できない、という緩い結論になる。

仮設検定は帰納的推論である

仮設検定の推論形式は、部分から全体を推論する帰納的推論である。
95%予言的中区間を使うならば、常に、間違う可能性が5%ついてまわる。

このように、統計学の中核には帰納的推論があるという点が、演繹的推論がベースにある普通の数学と異なるところだ。

練習問題 

p97の練習問題の設定を引用します。

N枚のコインを投げて、表が57枚出た。
N=100と仮説を立てる。

この仮説が棄却されるかどうか確かめよう。

このとき、表がでる枚数は、
・平均 N / 2 = 50
・標準偏差 √N / 2 = 5
として、正規分布で近似できる。

表の枚数xの95%予言的中区間を作る。

-1.96 \leqq \frac{x - 50}{5} \leqq 1.96

解くと、

40.2 \leqq x \leqq 59.8

この範囲にx=57は入る。よって、N=100という可能性は棄却されない。

区間推定 検定から区間推定h

区間推定という作業

  • さまざまな母数の仮説をたて、その都度、仮説検定する。
  • すると、棄却されずに残った母数たちが得られる。
  • その母数たちが、区間となる。この区間をNの信頼区間と呼ぶ。(95%予言的中区間を検定に使うならば、Nの95%信頼区間と呼ぶ。)

この作業が区間推定である。

ここまで、とても自然に理解できると思う。

よくある誤解 95%信頼区間の確率の意味

初学者が誤解しやすい点にも本書は注意を払ってくれる。

95%信頼区間は、「95%のデータがその区間に入っている」という意味ではないことに注意。

母数N
・すでに確定しているが未知
・Nが異なれば母集団そのものも異なる
・確率的に数値が出るのは、母数Nではなく、観測値。

ゆえに、本当の正しい母数Nが生き残る確率は、各々の観測値に対して、どれも0.95

「区間推定を続けるなら、さまざまな観測値に対してさまざまな区間が求まるが、それら100回のうち95回は正しい母数を含んでいる」
という意味。

練習問題

血圧検査は、検査する人の癖や聴覚次第で、ある程度まちまちになることが知られている。

今、血圧検査で自分の血圧を測ってもらうときの血圧をxとすると、xは実際の血圧μを平均とし、標準偏差6の正規分布をするとしょう。

このとき、計測された血圧が130であったとしたら、あなたの実際の血圧μはどの範囲であると推定すればよいのだろうか。95パーセント信頼区間を求めてみることにする。

母数(平均の場合)の95パーセント信頼区間はこの式で求められる。

-1.96 \leqq \frac{x - μ}{σ} \leqq 1.96

よって、分散と観測値を代入して、μについてとけばいい。

-1.96 \leqq \frac{130 - μ}{6} \leqq 1.96

関連記事

0
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?