母集団と標本
統計学において、調査対象となる数値・属性等の源泉となる集合全体を母集団と言い、母集団から抽出された部分集合のことを標本と言います。
統計学において、基本統計量を示す・グラフを作成するなど**「データの特徴を記述する」学問を記述統計学と言い、「標本から母集団の特徴を推測する」学問を推測統計学**と言います。
記述統計学では、大量の要素の標本の存在を前提とするため、母集団と標本はほぼ同一視されます。
母集団のうち、データの個数が有限の要素から成る母集団を有限母集団と言い、データの個数が無限の要素からなる母集団を無限母集団と言います。日本に住む女性のデータは非常に多いものの有限であるため有限母集団であり、サイコロを投げて出る目のデータは試行を無限に繰り返すことが可能であるため無限母集団であると言えます。
標本抽出
調査を実施する際は、調査対象となる母集団を設定した上でデータを所得します。このとき調査対象となる母集団全てを調べることを全数調査と言い、母集団の一部を抽出して調べることを標本調査と言います。
標本調査には、母集団を代表する標本を無作為に抽出した**無作為抽出(ランダム・サンプリング)と、母集団を代表する標本を意図的に抽出した有意抽出があります。標本の抽出には、一度抽出された標本を母集団の中に戻す抽出方法である「復元抽出法」と、一度抽出された標本を母集団の中に戻さない抽出方法である「非復元抽出法」**の2つがあります。
単純無作為抽出法
母集団の全ての要素を等確率で抽出し、調査対象とする方法を**「単純無作為抽出法」**と言います。
母集団から調査対象を完全に無作為に抽出するのは、非常に手間と時間がかかるのが問題です。
層化抽出法
母集団をその特性に応じていくつかの層に分類することが可能な時、母集団を層化し、各層からランダムに標本を抽出する方法を**「層化抽出法」**と言います。特に、層の大きさに比例させて調査対象を抽出する方法を「比例配分法」と言います。
世論調査では、都道府県別・自治体別などに分けてサンプリングする層化抽出法が採られています。母集団内情報の比較が行える、母集団を推測する精度が増すなどのメリットがある一方、層化を行うための母集団の構成情報を事前に知っておく必要があるというデメリットが存在します。
系統抽出法
抽出枠の**「先頭からm番目」の要素を開始点として、そこから「nつ飛ばし」に要素をサンプリングしていく方法を「系統抽出法」**と言います(m,nは任意の数)。
単純無作為抽出法に比べて手間や時間がかからないなどのメリットがある一方、名簿の並び順に何らかの周期があると標本に偏りが生じる可能性があるというデメリットが存在します。
集落抽出法(クラスター抽出法)
母集団をいくつかのクラスター(似た性質を持つ集団)に分け、その中からいくつかのクラスターを無作為抽出し、それぞれのクラスターで全数調査を実施するという3つの段階をとる方法を**「集落抽出法」(クラスター抽出法)**と言います。
クラスターの情報さえあれば実施することができるため手間や時間がかからないなどのメリットがある一方、同じクラスターに属する調査対象は似た性質を持つため標本に偏りが生じる可能性があるというデメリットが存在します。
多段抽出法
母集団をいくつかのグループに分け、そこから下部のグループを無作為抽出し、その中からさらにグループを無作為抽出する…という作業を何度か繰り返し、最後に抽出されたグループから調査対象を無作為抽出するという方法を**「多段抽出法」**と言います。
抽出効率が高いというメリットがある一方、サンプルサイズが小さい場合に標本に偏りが生じる可能性があるというデメリットが存在します。
母平均の点推定
「標本から母集団の特徴を推測する」学問である推測統計学には、推測統計学で求めたいとする**母集団を特徴づける値である「母数」**を統計学的に推測する「推定」と母集団から抽出された標本の統計量に関する仮説が正しいかを統計学的に判定する「検定」の2つがあります。
推定には、標本から求められるただ1つの値によって母数をピンポイントで推定するという手法である**「点推定」と、標本から母数が含まれるであろう区間を推定する手法である「区間推定」**があります。
※**「母数」**はパラメーターの一種であり、母集団を特徴づける母平均・母分散などが該当します
母数(パラメーター)を推定するために利用する数値の計算方法や計算式を**「推定量」と言い、実際に試行を行った結果から計算した値を「推定値」**と言います。
点推定では、「nが大きいとき標本平均は真の平均に近づく」、つまり「標本平均の期待値(平均値)は母平均に一致する」という大数の法則から標本平均を母平均と見なすことができます。
また「一致性」と「不偏性」という点推定に関する2つの性質から、標本平均を母平均と見なすこともできます(「大数の法則」≒「一致性」であると言える)。
一致性
**「サンプルサイズnが無限大になる時、推定量が母数の真の値に収束する」という性質を「一致性」**と言います。
母数θの推定量をθ^とすると次のように表すことができます。
∀_ε>0 n→∞ P(|\hat{θ}-θ|>ε)=0
このような推定量θを一致推定量と言います。
不偏性
**「推定量の期待値が母数(パラメーター)に一致する」という性質を「不偏性」**と言います。
母数θの推定量をθ^とすると次のように表すことができます。
E(\hat{θ})=θ
このような推定量θを不偏推定量と言います。
標本分散と不偏分散
偏差平方和をnで割る標本分散は、一致推定量であるものの不偏推定量ではありません。
nが十分に大きくない場合、標本分散と母分散は一致せず「標準分散<母分散」となります。
標本分散の期待値が母分散と一致する(不偏性を持つ)ように、標本分散の算出式にn/(n-1)を掛けたものが不偏分散であり、不偏分散は一致性と不偏性を持つため不偏分散を母分散と見なすことができます。
標準誤差
データそのものの散らばりを示す標準偏差とは異なり、平均の散らばりを示し**「標本平均の標準偏差」である理論的な推定値を標準誤差**と言います。
「平均μ、分散σ^2を持つあらゆる確率分布から無作為復元抽出した標本平均Xnの分布は、nが十分に大きい時には正規分布 N(μ, σ^2/n) へ近づいていく」という中心極限定理より、標本平均の標準偏差である標準誤差は以下のように表されます。
標準誤差SE=\sqrt{\frac{σ^2}{n}}=\frac{σ}{\sqrt{n}}
【点推定のまとめ】
- 母平均の推定量▶︎標本平均を用いる(普遍性・一致性)
- 母分散の推定量▶︎不偏分散を用いる
- 母標準偏差の推定量▶︎標準誤差を用いる(標準偏差をサンプルサイズnの平方根で割る)
母平均の区間推定
標本から母数が含まれるであろう区間を推定する手法を**「区間推定」と言います。
この区間のことを信頼区間(CI)といい、その両端を信頼限界と呼びます。また、信頼限界の小さい端を下側信頼限界と言い、大きい端を上側信頼限界**と言います。
**「母数がある信頼区間に含まれる確率」を信頼係数(信頼度)**と言い、一般には90%・95%・99%がよく用いられます。信頼係数が高いほど誤りを犯す確率は小さくなりますが、信頼区間は大きくなります。またサンプルサイズnが大きくなるほど「推定の精度」は高くなるため、信頼区間の幅が狭くなります。
信頼係数が95%であるというのは、標本平均を母平均と見なす場合、**「無作為抽出を繰り返して区間推定を100回行った時、95回は母平均が信頼区間に入るが、5回は信頼区間に入らない可能性がある」**ということです。
「母平均が95%の確率で推定した信頼区間に入る」というのは間違いになります。
母平均の区間推定には、**「母分散既知」と「母分散未知」**の2つの場合があります。
- 「母分散既知」▶︎母分散σ^2の値を使い、標準正規分布を用いて信頼区間を算出する
- 「母分散未知」▶︎不偏分散s^2の値を使い、t分布を用いて信頼区間を算出する
実際は母平均が分からないのに母分散は分かっているという状況はほとんどないため、後者の「母分散未知」であるt分布を使用した算出法がよく用いられます。
母分散既知
母分散既知の母平均の区間推定には、標本平均の分布を正規分布 N(μ, σ^2/n) に従わせるという概要の「中心極限定理」を用い、標本平均を標準化することで標準正規分布を利用します。
標本平均を標準化した統計量Zは以下のように表せ、標準正規分布に従います。
Z=\frac{\bar{x}-\mu}{標本平均の標準偏差(標準誤差)}=\frac{\bar{x}-\mu}{\frac{σ}{\sqrt{n}}}
信頼区間が95%である場合、統計量Zが標準正規分布の95%の面積(確率)の範囲内にあればいいので、下側確率・上側確率が共に2.5%となるZの値を標準正規分布表を使用して求めます。
標準正規分布表より、Z=1.96であることが分かるため以下の式が成り立ちます。
-1.96 \leq \frac{\bar{x}-\mu}{\frac{σ}{\sqrt{n}}} \leq 1.96
求める母平均μについて変形すると、95%信頼区間の母分散既知の母平均の区間推定は標準誤差を用いて、以下のように表されます。
\bar{x}-1.96・\frac{σ}{\sqrt{n}} \leq \mu \leq \bar{x}+1.96・\frac{σ}{\sqrt{n}}
一般化して**信頼係数100(1-α)%**の場合、母平均の区間推定式は次のように表せます。
Z(α/2)は下側確率(上側確率)を表し、αの値から標準正規分布表を用いてZの値を求めます。
\bar{x}-Z_{(a/2)}・\frac{σ}{\sqrt{n}} \leq \mu \leq \bar{x}+Z_{(a/2)}・\frac{σ}{\sqrt{n}}
母分散未知
母分散未知の母平均の区間推定には、母分散の代わりに不偏分散s^2を使い、標準正規分布の代わりにt分布を使います。t分布は自由度(n-1)の値によって分布の形状が変化することが特徴です。
不偏分散s^2=\frac{1}{n-1} \sum_{i=1}^{n}(x_i-x)^2
母分散未知の母平均の区間推定のために標本平均を標準化した統計量tを、母分散既知の統計量Zと同じように以下のように設定します。
t=\frac{\bar{x}-\mu}{\frac{s}{\sqrt{n}}}
信頼区間が95%である場合、統計量Zが標準正規分布の95%の面積(確率)の範囲内にあればいいので、下側確率・上側確率が共に2.5%となるtの値を、自由度n-1に注意しながらt分布表を使用して求めます。
t分布表より、t=2.262であることが分かるため以下の式が成り立ちます。
2.262 \leq \frac{\bar{x}-\mu}{\frac{s}{\sqrt{n}}} \leq 2.262
求める母平均μについて変形すると、95%信頼区間の母分散未知の母平均の区間推定は標準誤差を用いて、以下のように表されます。
\bar{x}-2.262・\frac{s}{\sqrt{n}} \leq \mu \leq \bar{x}+2.262・\frac{s}{\sqrt{n}}
一般化して**信頼係数100(1-α)%**の場合、母平均の区間推定式は次のように表せます。
t(α/2)(n-1)は下側確率(上側確率)を表し、αの値からt分布表を用いてtの値を求めます。
\bar{x}-t_{(a/2)(n-1)}・\frac{s}{\sqrt{n}} \leq \mu \leq \bar{x}+t_{(a/2)(n-1)}・\frac{s}{\sqrt{n}}
母分散未知の母平均の区間推定方法は、サンプルサイズ(自由度)が大きくなればt分布が標準正規分布N(0,1)に近づくため、母分散既知の場合と同じになります。
母分散既知・母分散未知のどちらの場合も同じように区間推定を行いますが、母分散未知の時は不偏分散s^2・統計量t・自由度n-1を用いることが母分散既知の場合と異なるポイントです。
参考文献
- 例題で学ぶ初歩からの統計学 第2版
- 母集団 - Wikipedia
- 標本(統計学) - Wikipedia
- 16-1. 母集団と標本 | 統計学の時間 | 統計WEB
- 16-3. 標本の抽出方法 | 統計学の時間 | 統計WEB
- 無作為抽出 - Wikipedia
- 18-1. 点推定とは | 統計学の時間 | 統計WEB - BellCurve
- 18-2. 母平均の点推定と推定量・推定値 | 統計学の時間 | 統計WEB - BellCurve
- 18-3. 推定量の性質 | 統計学の時間 | 統計WEB - BellCurve
- 18-5. 標準偏差と標準誤差 | 統計学の時間 | 統計WEB - BellCurve
- 19-1. 区間推定とは | 統計学の時間 | 統計WEB
- 19-2. 母平均の信頼区間の求め方(母分散既知) | 統計学の時間 | 統計WEB
- 母平均の区間推定
- 20-2. t分布表 | 統計学の時間 | 統計WEB
- 20-2. 母平均の信頼区間の求め方(母分散未知) | 統計学の時間 | 統計WEB