母集団のパラメータの区間推定 #統計学

頻度論的信頼区間

教養レベルの教科書では、推定を学ぶ際に母集団のパラメータ(平均値など)の点推定の次に出て来るのが母集団のパラメータの区間推定ですが、よく言われるようにこれは実は相当な曲者です。

その原因は母集団のパラメータ(平均値など)を未知だがすでに決まっている定数とし、信頼区間を確率変数を両端とする閉区間としていることです。

すなわち、パラメータ$\theta$に対する頻度論的な信頼区間とは以下のように定義されています。

ランダムな区間[l(X),u(X)]が、\thetaに対する95％信頼区間であるとは、データが得られる前に以下が成り立つことを言う。

P(l(X)<\theta<u(X)|\theta)=0.95

教養レベルの統計学の本では例題や演習問題でよく以下の様な、信頼区間の両端の確率変数に具体的な数値を代入する問題が出題されます。

「ある工場の部品を8個抽出し、その重量を測定したところ、次の値を得た。

32.1, ~~33.0, ~~ 31.0, ~~ 32.0, ~~ 32.5, ~~ 32.2, ~~ 32.8, ~~ 32.4

この部品の重量は正規分布に従うとみて、この部品の重量の平均,分散の95%信頼区間を求めよ。」

しかし実はこれはこの理論上はあまりそれほど重要でない計算をしていることになります。何故なら、その時の標本抽出の結果はこの区間になりました、ということであり、それ以上のことは言えないからです。

ベイズ信頼区間

実現値を基に計算した区間は、直感的には何か意味のある閉区間のように思えます。これはベイズ信用区間の考えを導入することで説明できます。すなわち、今度は母集団のパラメータを事前分布をもつ確率変数とすれば、具体的な数値を両端とする閉区間の中にその確率変数が値を取る確率ということが数学的に意味をもちます。

観測データX=\overrightarrow{x}に基づく区間[l(\overrightarrow{x}),u(\overrightarrow{x})]が、\thetaに対する95％ベイズ信用区間であるとは、以下が成り立つことを言う。

P(l(\overrightarrow{x})<\theta<u(\overrightarrow{x})|X=\overrightarrow{x})=0.95

母平均の区間推定の場合では母平均の事前分布を正規分布とし、その分散を無限大にすれば(そうすることにより事前分布を無情報事前分布とすれば)ベイズ信用区間は古典的な信頼区間に一致します。