医療の診断では、いろいろな検査項目をもとに、健康化そうでないかが判断される。
各検査項目の値と健康状態には相関があるが、その確率は確率的である。
今回はその判断をベイズの識別規則によって行う事を考える
また、判断を間違えた時の損失を考慮
識別規則の有効な性能評価法であるROC曲線についても紹介する
ベイズの識別規則
識別データ x
識別クラス C_i(i=1,2…,k)
ベイズの識別規則は、次式で定義される事後確率がもっとも大きなクラスに観測データを分類する。
P(Ci|x) = \frac{p(x|Ci)}{p(x)}*P(Ci)\\
事後確率 = \frac{クラス条件付き確率}{周辺確率}*事前確率
この式はベイズの定理とよばれる。
P(Ci|x) : 事後確率
P(Ci) : 事前確率
p(x|Ci) : クラス条件付き確率(尤度)
p(x) : 周辺確率
ベイズの識別規則では、クラスを識別しようと考えた時
それぞれの事後確率を比較して、大きい方のクラスを選ぶ
識別クラス = argmax p(x|Ci)P(Ci)
ベイズの識別規則の例
尤度比による識別クラスの決定
ベイズの識別規則は誤り率最小
最小損失基準に基づくベイズの識別規則
誤りを犯すことによって発生する危険性は、クラス間で対称とは限らない
健康な人を病気と判定<病気の人を健康と判定
このような危険性を考慮した識別規則を構成するために損失Lijを導入する
Lijは真のクラスがCjの時にCiと判断することによって被る損失を表す
観測データxをクラスCjと判断したときに被る損失は
r(Cj|x) = \sum_{k=1}^{K}LikP(C_k|x)
識別規則はもっとも損失の少ないクラスに識別することなので
識別クラス = argminr(Ci|x)
リジェクト
誤り率が大きな領域においては判断を避けることをリジェクトという
受信者動作特性曲線(ROC曲線)
作成したモデルの性能評価法
ROC曲線は、偽陽性率と真陽性率の関係をグラフにしたもの
ROC曲線は、クラス間の重なり率が少ないほど左上にシフトする
ROC曲線の下側の面積をROC曲線下面積(AUC)といい、識別器の性能を表す評価尺度として使用される
もし完全な識別器であった場合には、AUCは1になる
曲線が、45度の直線であった場合には、ランダムな識別器のROC曲線となりAUCは0.5となる
なので、AUCは大きい値ほど性能が良い
ROC曲線の構成
真のクラスがわかっている10個のデータに対する識別器の仮想的なスコアを表3.5に、
スコアから描かれたROC曲線を図3.7に示す。
このようにスコアの良いものから順にプロットしていけばROC曲線は完成する。