初めに
統計検定準一級の2021年度の過去問の解説です。
問題本文は統計検定の公式サイトでダウンロードしてください。
論述問題
問2 ベイズ法
(1-1)
共役事前分布に関する問題。事前分布と事後分布が同じ分布となるような事前分布のことを共役事前分布という。よく知られているようにベータ・ポアソン分布、ガンマ・ポアソン分布や正規分布-正規分布が共役事前分布となる。 なお共役事前分布の「共役」は「きょうやく」と読むのが正しいらしい。
(1-2)
$X$と$\theta$が
\begin{align}
X &\sim Bin(n, \theta)\\
\theta &\sim Beta(\alpha_0, \beta_0)
\end{align}
という分布に従うとき、$(X, \theta)$の同時確率密度関数は
\begin{align}
f(X, \theta) &= {}_nC_x \theta^x (1-\theta)^{n-x}\frac{1}{\mathrm{B(\alpha_0, \beta_0})} \theta ^{\alpha_0-1} (1-\theta)^{\beta_0-1} \\
&\propto \theta^{x+\alpha_0-1} (1-\theta)^{n-x+\beta_0-1}
\end{align}
となるので、$X=x_0$が与えられたときの事後分布は、
\begin{align}
f(\theta | X=x_0) &= \frac{f(X=x_0, \theta)}{\int d\theta f(X=x_0, \theta)} \\
&= \frac{\theta^{x_0+\alpha_0-1} (1-\theta)^{n-x_0+\beta_0-1}}{B(x_0+\alpha_0, n-x_0+\beta_0)}
\end{align}
となる。したがって$\alpha_1=x_0+\alpha_0, \beta_1=n-x_0+\beta_0$である。
(1-3)
対数尤度の微分は
\frac{\partial \mathrm{log} \mathcal{L}}{\partial
\theta} = \frac{x+\alpha_0-1}{\theta} - \frac{n-x+\beta_0 -1}{1-\theta}
となるので、上式=0と置いて、答えが得られる。
(2-1)
事前分布が共役事前分布であるという知識を用いると、答えが(B)あることはすぐに分かる。事前分布、事後分布ともに正規分布であるため、メトロポリス・ヘイスティング法で容易に平衡分布へたどり着ける。事前分布は$N(0, 1)$であるが、事後分布は$X_1=3.0$というデータに引っ張られて平均値が正の値となっている。
(2-2)
具体的に事後分布を示す必要があるので計算しないといけない。少し大変。
まず$X\sim N(\mu, \sigma^2), \ \mu \sim N(\mu_0, \sigma^2_0)$としたときの、$\mu$の事後分布を計算しておく。同時確率密度関数は
\begin{align}
f(X, \mu) &\propto \exp \left( -\frac{(X-\mu)^2}{2\sigma^2} -\frac{(\mu-\mu_0)^2}{2\sigma_0^2}\right)
\end{align}
であり、指数関数の中身を$\mu$に注目して整理すると
-\frac{1}{2} \left( \frac{1}{\sigma^2}+\frac{1}{\sigma^2_0}\right) \left( \mu - \left( \frac{1}{\sigma^2}+\frac{1}{\sigma^2_0}\right)^{-1} \left( \frac{X}{\sigma^2} +\frac{\mu_0}{\sigma^2_0}\right) \right) + (\mathrm{\muに依存しない部分})
と書ける。したがって、$X=x$が与えられたときの事後分布は
\begin{align}
f(\mu | x) &\sim N(\mu', \sigma'^2) \\
\mu' &= \left( \frac{1}{\sigma^2}+\frac{1}{\sigma^2_0}\right)^{-1} \left( \frac{x}{\sigma^2}+\frac{\mu_0}{\sigma^2_0}\right) \\
\sigma'^2 &= \left( \frac{1}{\sigma^2}+\frac{1}{\sigma^2_0}\right)^{-1}
\end{align}
となる。
まず$X_1=3.0$が観測されたときの事後分布は、上式に$x=3.0, \ \mu_0=0, \ \sigma^2=4, \ \sigma^2_0=1$ を代入すると$N\left( \frac{3}{5}, \frac{4}{5} \right)$となる。次に、さらに$X_2=2.3, \ X_3=4.2, \ X_4=1.5$が観測されたときの事後分布を考える。このとき$X_2, \ X_3, \ X_4$が観測されたとする代わりに、平均値$\bar{X}=8/3$が観測されたと見なしてよい。$X \sim N(\mu, \ \sigma^2)$のとき、$\bar{X} \sim N(\mu, \ \sigma^2/3)$となることに注意すると、上記の事後分布の式に$x=8/3, \mu_0=3/5, \sigma^2=4/3, \sigma_0^2=4/5$を代入して、解答は$N(11/8, \ 1/2)$となる。