Zennで私が記事にしていた内容を転写しています。
統計検定2級の資格獲得を目指している方に対する記事です。
2016年6月の問10の設問の日本語がすこし雑なためか、私には理解ができませんでした。
そのため、問10の(2)と(3)に関して、私なりに理解できた内容に基づき、解説します。
問10(2)
得票率の推定値として0.45を用います。この推定値に対する推定量の統計的性質について選択肢から選びます。ここではまず「一致推定量」と「不偏推定量」の理解が必要です。
一致推定量(Consistent Estimator)
一致推定量は、サンプルサイズが大きくなるにつれて、その推定値が真のパラメータに収束する性質を持つ推定量です。ここで、得票率の推定値はサンプルサイズが増えるにつれて真の得票率に収束することが期待されます。
不偏推定量(Unbiased Estimator)
不偏推定量は、サンプルから得られる推定値の期待値が真のパラメータと等しい場合の性質を持つ推定量です。選挙の出口調査で得られた得票率の推定値は、サンプルが母集団を代表する限り、真の得票率を正確に推定すると考えられます。
このことから、
出口調査の結果から得られた得票率の推定値 0.45 は、
一致推定量である:サンプルサイズが大きくなるにつれて、推定値は真の得票率に収束すると期待されます。大数の法則です。
不偏推定量である:推定値の期待値は、真の得票率に等しいと考えられます。つまり期待値=平均なわけですから、得票率の標本平均は、真の得票率に等しいといえます。
問10(3)
もともと得票率の母比率の推定問題なわけですから、分散といえば$np(1-p)$です。$n$ は試行回数、$p$ は各試行で「成功」する確率です。では、なぜ選挙の出口調査のような標本比率の分散の推定には $p(1−p)/n$という式が使われるのでしょうか。これを理解するには、二項分布の性質と標本比率の概念を理解する必要があります。
二項分布の分散
二項分布は、同一の確率 $p$ で「成功」または「失敗」となる独立な試行を $n$ 回行ったときの「成功」回数の分布です。
二項分布の分散=$np(1-p)$
標本比率の分散
一方、標本比率は、二項分布の成功回数を試行回数で割ったものです。例えば、2000回の試行で900回成功した場合、標本比率は 900/2000=0.45です。標本比率の分散は、二項分布の分散を試行回数の平方で割ったものになります。したがって、標本比率の分散は次のように表されます:
標本比率の分散 = $np(1-p)/n^2=p(1-p)/n$
理由
この違いの理由は、二項分布の分散が「成功」回数の分散を表しているのに対し、標本比率の分散は「成功」の割合の分散を表しているためです。サンプルサイズ(試行回数)が大きくなるにつれて、標本比率の分散は小さくなります。これは、大きなサンプルサイズでの比率の推定がより正確であることを意味します。
もっと簡単・かつ端的・かつ資格対策に限定して表現すると、母比率の区間推定において母分散が未知の場合推定量tが採用されます。その際の分母にはいる、$√(p(1-p)/n)$が標本比率の標準偏差であり、${√(p(1-p)/n)}^2$が標本比率の分散というわけになります。