PRMLの1.5.1を読んでいると,「誤り確率の最小にするのが,事後確率が最大のクラスに割り当てるときであると言い換えられる.」とあって,いきなりなんでそんなことになるんだと疑問に思ったので,覚え書きのために自分なりの解釈を書いてみました.
#誤識別率の最小化(クラス分類問題)
ある患者のX線画像(のピクセル強度)を入力xとして,その患者が癌であるか否か(癌であるクラスをC1,そうでないクラスをC2)を判別するという決定問題の下で,間違った判断をしてしまう確率を最小化したいということがここでの目標です.
ここでは,決定領域$R_k$上に存在する入力xをクラス$C_k$に割り当てるという決定規則を採用しています.
この時,誤って本来癌である患者のX線画像(入力x)を癌でないクラス$C_2$に割り当てたり,その逆が起きる場合があります.その誤り確率は
\begin{align}
p(誤り)&=p(x\in R_1,C_2) + p(x\in R_2,C_1)\\
&= \int_{R_1}p(x,C_2)dx\,+\,\int_{R_2}p(x,C_1)dx
\end{align}
この誤り確率を最小にするには上の積分値が小さくなるように入力$x$をクラスに割り当てなければなりません.
PRMLではここでいきなり「誤り確率の最小にするのが,事後確率が最大のクラスに割り当てるときであると言い換えられる.」となるのです.
ここで論理の飛躍があるので,この行間を自分で補ってあげる必要があると思うのですが,この誤り確率の最小化の説明の後に,より一般のKクラスの場合には正解確率を最大化してやる方が簡単だという風にあります.
この正解確率を用いると,先ほどの誤り確率は
\begin{align}
p(誤り)&=1-p(正解)\\
&= 1-\Bigl(\int_{R_1}p(x,C_1)dx\,+\,\int_{R_2}p(x,C_2)dx\Bigr)
\end{align}
と表すことができます.
この式より誤り確率の最小化は正解確率の最大化と等価であることはお分かり頂けると思います.
そしてここで,
p(x,C_k)=p(C_k\,|\,x)p(x)
より,正解確率(同時分布)の最大化は正解確率での事後確率最大化と等価であるということが分かります.
このことから,誤り確率の最小化は(正解確率としての)事後確率の最大化と等価であるということなのです.
#引用
パターン認識と機械学習 上