例題
【問題】
ある工場では,毎日1個だけ生産される精密部品について,「良品」か「不良品」かを記録している。
その日の不良品発生確率を $p$ とするが,この工場は新しい製造ラインを導入したばかりであり,過去データが少ないため,管理者は $p$ を未知と考えている。
事前の知識として,管理者は「通常は不良率は低いが,完全には分からない」と考えており,$p$ に対して次の事前分布を置く。
p \sim Beta(2,8)
また,ある10日間の観測の結果,不良品は2個,良品は8個であったとする。
各日の観測は独立で,不良品が出る確率はすべて同じ $p$ であるとする。
各日の不良・良品を表す確率変数を $X_1,\dots,X_{10}$ とし,
X_i \sim Ber(p)
\quad (i=1,\dots,10)
とする。ただし,
X_i=
\begin{cases}
1 & \text{不良品}\\
0 & \text{良品}
\end{cases}
である。
このとき,次の問いに答えなさい。
(1)観測データに基づく $p$ の事後分布を求めなさい
(2)$p$ の事後平均を求めなさい
(3)次の1日に生産される部品が不良品である事後予測確率を求めなさい
解説
(1)
この問題では,未知パラメータ $p$ に対して事前分布が与えられ,その後にベルヌーイ分布に従う観測データが得られている。
したがって,ベイズの定理により,
\pi(p \mid x)
\propto
L(p)\pi(p)
を用いて事後分布を求める。
ここで,$\pi(p)$ は事前分布,$L(p)$ は尤度関数である。
なぜこの式を使うのかというと,ベイズ法では「観測前の信念」である事前分布を,データの情報で更新して「観測後の信念」である事後分布を作るからである。
まず,10日間の観測で不良品が2個,良品が8個なので,
\sum_{i=1}^{10} x_i = 2
である。
各 $X_i$ は独立に $Ber(p)$ に従うので,尤度関数は
L(p)
=
\prod_{i=1}^{10} p^{x_i}(1-p)^{1-x_i}
である。
これをまとめると,
L(p)
=
p^{\sum x_i}(1-p)^{10-\sum x_i}
=
p^2(1-p)^8
となる。
次に,事前分布 $p \sim Beta(2,8)$ の密度関数は,正規化定数を除けば
\pi(p)
\propto
p^{2-1}(1-p)^{8-1}
=
p^1(1-p)^7
と書ける。
したがって,事後分布は
\pi(p \mid x)
\propto
L(p)\pi(p)
=
p^2(1-p)^8 \cdot p^1(1-p)^7
これを指数法則で整理すると,
\pi(p \mid x)
\propto
p^{2+1}(1-p)^{8+7}
=
p^3(1-p)^{15}
ここで,ベータ分布 $Beta(\alpha,\beta)$ の密度は,正規化定数を除けば
p^{\alpha-1}(1-p)^{\beta-1}
の形である。
いま,
p^3(1-p)^{15}
=
p^{4-1}(1-p)^{16-1}
であるから,事後分布は
p \mid x \sim Beta(4,16)
となる。
このように,ベルヌーイ分布の尤度とベータ分布の事前分布を組み合わせると,事後分布もベータ分布になる。
これを共役事前分布という。
(2)
ここでは,$p$ の事後平均を求める。
ベイズ法では,点推定として事後平均を用いることが多い。
なぜなら,事後平均は「データを見た後の $p$ の平均的な値」を表し,推定量として自然だからである。
(1)で求めた事後分布は
p \mid x \sim Beta(4,16)
であった。
ベータ分布 $Beta(\alpha,\beta)$ の期待値は
E[p] = \frac{\alpha}{\alpha+\beta}
である。
したがって,事後平均は
E[p \mid x]
=
\frac{4}{4+16}
=
\frac{4}{20}
=
0.2
となる。
よって,求める事後平均は
E[p \mid x] = 0.2
である。
ここで参考として,最尤推定量も見ておくと,観測データだけから求める不良率は
\hat{p}_{MLE}
=
\frac{2}{10}
=
0.2
であり,今回はたまたま事後平均と一致した。
ただし,一般には事後平均と最尤推定量は一致しない。
ベイズ法では事前分布の情報も加味されるためである。
(3)
ここでは,次の1日に生産される部品が不良品である事後予測確率を求める。
これは,未知パラメータ $p$ の不確実性も含めて,将来の観測を予測する問題である。
次の日の観測を $X_{11}$ とすると,求めたいのは
P(X_{11}=1 \mid x)
である。
考え方としては,$p$ が分かっていれば
P(X_{11}=1 \mid p)=p
であるが,実際には $p$ は未知である。
そこで,事後分布に関して平均を取る。
P(X_{11}=1 \mid x)
=
\int_0^1 P(X_{11}=1 \mid p)\,\pi(p \mid x)\,dp
ここで
P(X_{11}=1 \mid p)=p
なので,
P(X_{11}=1 \mid x)
=
\int_0^1 p\,\pi(p \mid x)\,dp
これはまさに事後分布に関する $p$ の期待値である。
したがって,
P(X_{11}=1 \mid x)
=
E[p \mid x]
となる。
(2)で事後平均は
E[p \mid x]=0.2
と求めているから,
P(X_{11}=1 \mid x)=0.2
である。
つまり,次の1日に不良品が出る事後予測確率は 0.2 である。
この結果は,ベイズ予測の基本形を表している。
ベルヌーイ分布とベータ分布の組合せでは,事後予測確率は事後平均に一致する。
ポイント
・この問題で問われている本質は,事前分布と尤度を掛け合わせて事後分布を作るというベイズ法の基本操作である
・統計検定準1級では,特に
「ベルヌーイ分布または二項分布 × ベータ分布」
「正規分布 × 正規分布」
のような共役事前分布の組合せが頻出である
・事後分布を求めるときは,正規化定数まで厳密に追うよりも,まず
\pi(p \mid x)\propto L(p)\pi(p)
の形から分布の型を見抜くことが重要である
・事後平均は,ベイズ推定量としてよく使われる
今回は
Beta(4,16)
なので,
\frac{4}{20}
とすぐに出せるようにしておくとよい
・事後予測分布では,未知パラメータを固定せず,事後分布で平均化するという発想が重要である
これは「パラメータの不確実性も含めて予測する」という,最尤法との大きな違いである