はじめに
「はじめてのパターン認識」 (いわゆるはじパタ) [1] の3章「ベイズの識別規則」を勉強していて, 分かりにくいと感じました. というか最初全然分かりませんでした. ベイズ識別については, 文献 [2-3] の方が分かりやすいと思いました. 何か機械学習系の本なり論文なりって, 理論系以外だと, 忖度しないと何がどうなっているのかいまいちよく分からない...って思うこと多くないですか?1 なので, この記事ではそういう曖昧な部分がないようにベイズ識別について紹介できればなあと思います. というわけで, この記事ははじパタ 3 章「ベイズの識別規則」をテーマに数学する記事になります.
この記事では, 私自身が勉強する中で調べたこと, あるいは考えたことの備忘録もかねて, はじパタの内容を補完できるよう, 確率論として明瞭にかくことを心掛けてまとめました. 数学系, 特に確率論を専攻または履修した人や, 測度論や確率論の勉強をしたことがある人にとって分かりやすい記事になっていると思います. というよりはむしろ, 確率論にそれなりに慣れていないと分からないものが出来上がってしまった可能性大です. とはいうものの, 「ベイズの識別規則の確率論」という大仰なタイトルまで付けておきながら, 確率論としては何も大したことがない...大変申し訳ない記事です.
さて, この記事では条件付き確率を多用します. それは素朴な条件付き確率だけではなく, $\sigma$-加法族や確率変数に対するそれであったり, あるいは確率変数を止めた条件付き確率 $P(\cdot|X=x)$ です. 条件付き期待値や条件付き確率についてはそのうち記事にしたいなとは思っていますが, 詳しくは舟木 [4] や Ikeda-Watanabe [5] を参照してください.
識別について
このベイズ識別でやりたいのはクラスの識別です. クラスというのは何かの種類や性質と思うといいです. 例えば, ある大学入試があったとします. その大学では合格・不合格・補欠の 3 つの結果 (クラス) が受験生に通知されるとします. さてここで, ある受験生の合否や補欠の結果を予測することができるでしょうか. というのが, 識別でやりたいことになります.
当然, 大学はすべての情報を知っているので, 指定された受験生の合否の結果を正確に答えることができます. しかし, 予備校ではどうでしょうか. 予備校は受験生の全員のデータがあるわけではないし, 試験に関する完全な情報を知りません. なので例えば, 受験生の得点や偏差値等の情報を見て, 結果を予測することになります. この予測を事前確率を仮定して事後確率を用いて行うというのがベイズ識別です.
準備
まず, 確率空間 $(\Omega,\mathcal{F},P)$ 上で, $S$-値確率変数 $X$ が定義されているとします. ただし, $(S,\mathcal{B}_S)$ は可測空間です. 例えば, ユークリッド空間 $\mathbb{R}^d$ などを想定します. クラス識別したいので, 識別クラスを表す事象を $\{C_j\}_{j=1}^N\subset \mathcal{F}$ とします. ただし, 識別したいクラスが被らないために, $\{C_{j}\}_j$ は disjoint で, かつ $\Omega=\bigcup_{j=1}^N C_j$ とします.
先の大学入試と予備校の例で言えば, $C_j$ 達は合格・不合格・補欠を表し, $X$ は例えば受験生の得点や偏差値といったものになります. このとき, 過去の試験の結果等の経験から, 受験生全体の合格率や, 合格者・不合格者・補欠者それぞれの得点や偏差値の分布は概ね仮定できそうです. $X$ の例として偏差値を挙げましたが, 他にも有用な指標があるかも知れません. 識別に用いるこの $X$ はしばしばスコアと呼ばれるようです. このスコアと事前に仮定される確率をどう与えるかというのが識別モデルということになります.
というわけで話を戻すと, クラス $C_j$ に属する確率 $P(C_j)$ と $X$ の条件付き分布 $P_X(\cdot|C_j):=P X^{-1}(\cdot|C_j)$ はモデルとして与えられているとします.
以下に用語を整理し, また必要な定義を与えます.
事前確率
上述の $P(C_j)$, $j=1,2,\dots,N$ のことです. 我々はあらかじめこの確率を知っている, もしくは与えられています.
事後確率
確率変数 $X$ による条件付き確率 $P(C_j|X)$, あるいは $P(C_j|X=x)$, $j=1,2,\dots,N$ を事後確率といいます. $X$ をそのまま確率変数のままで扱うか, 実際のサンプルされたデータで扱うかの違いです. これらは計算して求める必要があります.
クラス条件付き確率
各 $j=1,2,\dots,N$ に対し, $X$ の $C_j$ での条件付き分布 $P_X(\cdot|C_j)$ をクラス条件付き確率といいます. この確率も我々はあらかじめ知っている, もしくは与えられています.
これが $S$ 上のある測度 $\mu$ に関して絶対連続であるとき, $P_X(\cdot|C_j)$ の $\mu$ に関するRadon-Nikodym 導関数 $dP_X(\cdot|C_j)/d\mu(x)$ を $p(x|C_j)$ とかくことにします ($\mu$ 依存だが, 記号上は省略). 同様に $dP_X/d\mu(x)=p(x)$とします. 例えば, $S$ がユークリッド空間であって, $\mu$ を Lebesgue 測度とすると, 単に確率密度関数を表します. が, はじパタにこの記号があるのでとりあえず書いただけで, 連続型や離散型の区別をせず統一的に扱うために, 最初から $P_X(\cdot|C_j)$ で話を進めておき, 必要になればこれらを使うことにします.
識別規則
クラス識別における識別規則について考えてみましょう. 我々は $X$ からクラス $C_1,\dots,C_N$ を識別したいということはすでに述べました. つまり, $X$ の情報に基づいてクラス $C_1,C_2,\dots,C_N$ を識別するということをしたいわけです. よって, 識別規則とは ${1,2,\dots,N}$ に値を取る $X$ の関数とみなすのがよいと思われます. すなわち次のように定義します.
定義 1 (識別規則). $X$-可測2な $\{1,2,\dots, N\}$-値確率変数を識別規則という. また, 識別規則全体を $\mathcal{D}$ で表す.
ベイズの識別に関する理論を英語では Bayesian decision theory というらしいので, decision の D としました.
最大事後確率基準に基づくベイズの識別規則
$X$ が与えられたとき, $P(C_i|X)$ を最大にするような $i$ を $i^{*}$ (すなわち $i^*:=\text{arg},\max_i P(C_i|X)$ ) とかき, クラス $C_{i^*}$ と識別する規則を最大事後確率基準に基づくベイズの識別規則, または混乱の恐れのないときは単にベイズの識別規則といいます.
はじパタ本では, $p(x|C_i)P(C_i)$ を最大にする $i$ なのですが, はじパタ (3.3) 式からも分かるように,
\begin{align*}
P(C_j|X=x)p(x) = p(x|C_j)P(C_j)
\end{align*}
なので, 大小関係は入れ替わりません.
さて, ベイズの識別規則 $i^*$ を定めましたが, これが確率変数として well-defined かどうかは一般には分かりません. なので, ここではこれを仮定することにします. すなわち $P(C_i|X)$ を最大にするような $i$ が a.s.3 で 1 つしか存在しないと仮定します. このとき, $i^*$ が定義 1 で定めた識別規則であることが分かります.
補題 2. $i^*$ が a.s. で well-defined とする. このとき, $i^*\in\mathcal{D}$ である. 4
誤り率
誤り率とは識別が誤っている確率のことです. つまり, 識別クラスのうちで識別したクラスとは別のクラスが本当のクラスであるものが存在する確率, すなわち, 識別規則 $\delta\in\mathcal{D}$ に対して,
\begin{align}
& P\left(\left. \bigcup_{i=1}^N \{\delta=i,\,\Omega\setminus C_i\} \right|X \right) = \sum_{i=1}^N P(\Omega\setminus C_i|X)\boldsymbol{1}_{\{\delta=i\}}, \tag{1} \\[1em]
& P\left( \bigcup_{i=1}^N \{\delta=i,\,\Omega\setminus C_i\} \right) = \sum_{i=1}^N P(\delta=i,\,\Omega\setminus C_i) \tag{2}
\end{align}
を誤り率と呼びましょう.
定義 3 (誤り率). 識別規則 $\delta\in\mathcal{D}$ とする.
(i) (1) を $\delta$ に対する条件付き誤り率といい, $\varepsilon(\delta|X)$ と表す.
(ii) (2) を $\delta$ に対する誤り率といい, $\varepsilon(\delta)$ と表す.
定義より直ちに, $\varepsilon(\delta)=E[\varepsilon(\delta|X)]$ が従います. つまり, 条件付き誤り率の期待値が誤り率です.
$\varepsilon(i^*|X)$, $\varepsilon(i^*)$ をそれぞれ条件付きベイズ誤り率, ベイズ誤り率といいます.
期待損失
クラス識別において, 判断を誤った際の損失を考慮したいといった場合があります. 例えば先の大学入試の例でいうと, 不合格判定で結果がに合格なのより, 合格判定なのに不合格だったときの方がダメージがでかいです. こういった状況を損失という形で考慮に入れることを考えます.
$\lambda\colon \{1,2,\dots,N\}^{2}\ni (i,j)\mapsto \lambda(i|j)\in\mathbb{R}$ を真のクラスが $C_j$ であるとき, クラス$C_i$ と識別したときの損失を表す関数とします. 以後は関数 $\lambda$ を固定して考えます.
識別規則 $\delta\in\mathcal{D}$ に対し,
\begin{align*}
r(\delta|X)
&= E\left[ \left. \sum_{j=1}^N \lambda(\delta|j)\boldsymbol{1}_{C_j} \right|X \right] \\[.5em]
&= \sum_{j=1}^N \lambda(\delta|j)P(C_j|X)
\end{align*}
とおきます.
定義 4 (期待損失). 識別規則 $\delta\in\mathcal{D}$ とする.
(i) $r(\delta|X)$ を $\delta$ に対する期待損失, または条件付きリスクという.
(ii) $r(\delta):=E[r(\delta|X)]$ を $\delta$ に対する全体リスクという.
これらの用語ははじパタにはないので, [2-3] から持ってきました.
最小損失基準に基づくベイズの識別規則
$i=1,2,\dots,N$ に対し, 恒等的に $i$ であるような識別規則を単に $i$ で表すことにします. 期待損失 $r(i|X)$ を最小にする $i$, すなわち $i_*:=\text{arg},\min_i r(i|X)$ を最小損失基準に基づくベイズの識別規則といいます.
$i_*$ が確率変数として well-defined かどうかは一般には分かりません. なので, 仮定として与えておく必要があります. $i_*$ が well-defined であるための十分条件を挙げたものとしては, 例えば次が考えられます.
命題 5. 次の (i), (ii) を仮定する:
(i) $\forall i,j~(i\neq j)$, $\exists k$ s.t. $\lambda(i|k)\neq \lambda(j|k)$,
(ii) $\exists A_1,\dots,A_N\in\sigma(X)$ s.t. $(P(A_i\cap C_j|X))_{ij}$ が可逆行列 a.s.
このとき, $i_*$ は確率変数として a.s. で well-defined である.
証明. ある $i\neq j$ に対し, $r(i|X)=r(j|X)$ とすると, $\sum_k(\lambda(i|k)-\lambda(j|k))P(C_k|X)=0$ である. よって, $\sum_k(\lambda(i|k)-\lambda(j|k))P(A_l\cap C_k|X)=0$ a.s. $\forall l$ が得られる. このとき (ii) とすると, $\lambda(i|k)=\lambda(j|k),~\forall k$ であるが, これは (i) に反する. したがって, $r(i|X)$ を最小にする $i$ は a.s. でただ 1 つである. □
また, 次が分かります.
補題 6. $i_*$ が a.s. で well-defined とする. このとき, $i_*\in\mathcal{D}$ である.4
$r(i_*|X)$ を条件付きベイズリスク, $r(i_*)$ をベイズリスクといいます.
以降では, $i^*$, $i_*$ は確率変数として well-defined であるとします.
ベイズ誤り率の最小性
最大事後確率基準に基づくベイズの識別規則が誤り率を最小にするというお話です. はじパタ3.1.4項 「ベイズ識別規則は誤り率最小」に対応します. はじパタの本文では「ベイズの識別規則が__誤り率を最小にする__ことを示す」とあります. 正直この項は一体何を言っているのかよく分かりませんでした. そもそも誤り率の最小性を見るためにはベイズの識別規則での誤り率と別の識別規則での誤り率とを比べる必要があります. 条件付きベイズ誤り率とベイズ誤り率ははじパタ内に定義が一応ありますが, ベイズ以外の識別規則に対する誤り率なるものははじパタ内において定義はありません. 最初読んだときは完全に道に迷いました. この記事では, 必要な定義はすべて与えられているので, この主張についてちゃんと議論することができます.
まず, 「ベイズの識別規則が誤り率を最小にする」という主張の意味なのですが, これは「ベイズの識別規則はすべての識別規則の中で誤り率を最小にする識別規則である」ということを意味するものと思います. このことを数式でかくと,
\begin{align}
\varepsilon(i^*) = \inf_{\delta\in\mathcal{D}} \varepsilon(\delta) \tag{3}
\end{align}
です. これを示さないと「ベイズの識別規則が誤り率を最小にすることを示す」をやったことにはなりません.
はじパタ本文では条件付きベイズ誤り率の期待値を計算する中で, 境界をずらしたら面積増えますよね?で終わっています. 当初は境界をずらすことがどうしてすべての識別規則の中でベイズの識別規則の誤り率の最小性を示すことになるのか, これで本当に証明になっているのか分かりませんでした. 自分で誤り率の定義 (定義 3) に辿り着いて, それをもとに考えてようやくはじパタで述べられている証明が, 考え方自体はその通りなんだと分かりました. また, 条件付きベイズ誤り率については 2 クラス ($N=2$) の場合のみを扱っていて, この場合たまたまはじパタにある条件付きベイズ誤り率の定義 $\min\{P(C_1|X),P(C_2|X)\}$ と一致します. これでは 3 クラス以上の識別の場合はどうするのか, 本文を読んでもよく分からないのではないでしょうか. これも誤り率を明確に定義していないことに起因していると思います. ちゃんと丁寧に書いてほしいと思いました.
それでは「ベイズの識別規則が誤り率を最小にする」を示しましょう.
定理 7. ベイズ誤り率は最小の誤り率である. すなわち, (3) が成り立つ.
証明. $i^*\in\mathcal{D}$ なので, $\varepsilon(i^*)\geq \inf_{\delta\in\mathcal{D}} \varepsilon(\delta)$ は明らか. よって逆の不等号を示す.
任意の disjoint な $A_1,A_2,\dots,A_N\in\sigma(X)$, $\Omega=\bigcup_i A_i$ に対し, $\varepsilon(i^*)\leq \sum_{i}P(A_i,\Omega\setminus C_i)$ を示せば十分.
今, 各 $i$ に対し,
\begin{align*}
P(A_i,\Omega\setminus C_i)
&= \sum_k P(A_i,i^*=k,\Omega\setminus C_i) \\
&= \sum_k\sum_{j\neq i}P(A_i,i^*=k,C_j) \\
&= \sum_k \left\{ P(A_i,i^*=k,C_k) + \sum_{j\notin\{i,k\}}P(A_i,i^*=k,C_j) \right\} \tag{4}
\end{align*}
である. ここで, $A_i$, $\{i^*=k\}$ は $X$-可測なので,
\begin{align*}
P(A_i,i^*=k,C_k)
&= E[P(C_k|X);A_i,i^*=k] \\[.5em]
&\geq E[P(C_i|X);A_i,i^*=k] \\[.5em]
&= P(A_i,i^*=k,C_i) \tag{5}
\end{align*}
である. (4), (5) より,
\begin{align*}
P(A_i,\Omega\setminus C_i)
&\geq \sum_k \left\{ P(A_i,i^*=k,C_i) + \sum_{j\notin\{i,k\}}P(A_i,i^*=k,C_j) \right\} \\
&= \sum_k \sum_{j\neq k}P(A_i,i^*=k,C_j) \\
&= \sum_k P(A_i,i^*=k,\Omega\setminus C_k)
\end{align*}
である. よって,
\begin{align*}
\sum_i P(A_i,\Omega\setminus C_i)
&\geq \sum_k P(i^*=k,\Omega\setminus C_k) = \varepsilon(i^*)
\end{align*}
を得る. □
ベイズリスクの最小性
はじパタ 3.1.5項「最小損失基準に基づくベイズの識別規則」に対応する部分です. 誤り率と同様に, ベイズリスクは全体リスクを最小にすることが分かります.
定理 8. ベイズリスクは最小の全体リスクである. すなわち,
\begin{align*}
r(i_*) = \inf_{\delta\in\mathcal{D}} r(\delta)
\end{align*}
が成り立つ.
証明. $i_*\in\mathcal{D}$ より, $r(i_*)\geq \inf_{\delta\in\mathcal{D}} r(\delta)$ は明らか. よって, 逆の不等号を示す.
任意の $\delta\in\mathcal{D}$ に対して,
\begin{align*}
r(\delta)
&= E[r(\delta|X)] \\[.5em]
&= \sum_{i}E[r(i|X);\delta=i] \\
&= \sum_{i,j} E[r(i|X);\delta=i,\,i_*=j] \\
&\geq \sum_{i,j} E[r(j|X);\delta=i,\,i_*=j] \\
&= \sum_{j}E[r(j|X);i_*=j] \\
&= E[r(i_*|X)] = r(i_*)
\end{align*}
より, 主張を得る. □
モデルの評価方法
識別モデルの評価方法についてです. モデルとは可測空間 $(\Omega,\mathcal{F})$ に入れた確率変数 $X$ と確率測度 $P$ のことです. 我々は構成した識別モデルがどの程度のものなのか分かりません. これを評価する方法にROC (Receiver Operating Characteristic) 曲線というものがあります.
確率論では $\sigma$-加法族をしばしば情報と捉えます. 例えば数理ファイナンスでは, 時刻に依存した $\sigma$-加法族の増大列 (フィルトレーション) は, 時間が進むごとに増えていく市場の情報を表します. 同じように, スコア $X$ は我々の知っている情報の表現です. そして, ROC曲線は識別クラスに関する情報を我々がどれだけ知っているか, またその情報をスコア $X$ にどれだけ反映させられているかを表すものになっています. このことは命題 11 で明らかになります.
ROC曲線
$i=1,2,\dots,N$ に対し, $[0,1]\times [0,1]$ の部分集合
\begin{align*}
\text{ROC}(i)
:&= \{(x,y) : x=P(\delta=i|\Omega\setminus C_i),\, y=P(\delta=i|C_i),\, \delta\in\mathcal{D}\} \\[.5em]
&= \{(x,y) : x=P(A|\Omega\setminus C_i),\, y=P(A|C_i),\, A\in\sigma(X)\}
\end{align*}
をクラス $C_i$ に対するROC集合と呼ぶことにします. 上で現れる $P(\delta=i|\Omega\setminus C_i)$ を識別規則 $\delta$ の $C_i$ に対する偽陽性率, $P(\delta=i|C_i)$ を識別規則 $\delta$ の $C_i$ に対する真陽性率といいます.
横軸 $x$ に偽陽性率を, 縦軸 $y$ に真陽性率をプロットしたものをROC曲線といいます. 実用上は, 識別境界による識別規則だけを考えて, それをスライドさせることで偽陽性率と真陽性率のペアをプロットしていくようですが, 最もパフォーマンスが出る性能を見るならば, すべての識別規則に対する真陽性率の上限を取ったものが妥当と考えられますので, ここではそのように定義したいと思います. 具体的には次のものです.
定義 9 (ROC曲線). $\mathcal{X}_i:=\{x\in[0,1]:x=P(A|\Omega\setminus C_i),, A\in\sigma(X)\}$ とし, $x\in\mathcal{X}_i$ に対し $\mathcal{A}_i(x):=\{A\in\sigma(X):x=P(A|\Omega\setminus C_i)\}$ とする. このとき,
\begin{align*}
y_i(x):=\sup_{A\in\mathcal{A}_i(x)} P(A|C_i), \qquad x\in\mathcal{X}_i,
\end{align*}
または $C_{\text{ROC}}(i):=\{(x,y_i(x)):x\in\mathcal{X}_i\}$ をクラス $C_i$ に対するROC曲線と呼ぶ.
ROC曲線の性質
まず, 次が分かります.
命題 10. $i=1,2,\dots,N$ とする.
(i) $(0,0),(1,1)\in\text{ROC}(i)$ である. したがって, $y_i(1)=1$ である.
(ii) $X$ と $\sigma(C_i;i=1,2,\dots,N)$5 が独立ならば, $C_\text{ROC}(i)\subset \{(x,x):x\in[0,1]\}$ である.
(iii) $\sigma(X)\supset\sigma(C_i;i=1,2,\dots,N)$ ならば, $(0,1)\in\text{ROC}(i)$ である.
証明. (i) $A=\emptyset,\Omega$ と取れば明らか.
(ii) $A\in\sigma(X)$ に対し, $P(A|\Omega\setminus C_i)=P(A)=P(A|C_i)$ より主張を得る.
(iii) 仮定より $C_i\in\sigma(X)$ なので, $0=P(C_i|\Omega\setminus C_i)$, $1=P(C_i|C_i)$ である. □
次にROC曲線の性質を見やすくするために, 次の仮定を置いて考えることにします. それは実用では多くの場合6において満たされ得るものです.
仮定 (H). $i=1,2,\dots,N$ に対し, $S$ 上の測度 $P_X(\cdot|\Omega\setminus C_i)$ は atom を持たない.7
命題 11. $i=1,2,\dots, N$ とし, (H) を仮定する.
(i) $\mathcal{X}_i = [0,1]$ である.
(ii) 関数 $[0,1]\ni x \mapsto y_i(x)\in [0,1]$ は単調増加, したがって高々可算個の点を除いて連続である.
(iii) $X$ と $\sigma(C_i;i=1,2,\dots,N)$ が独立ならば, $y_i(x)=x$, $x\in[0,1]$ である. すなわち, $C_{\text{ROC}}(i)=\{(x,x):x\in[0,1]\}$ である.
(iv) $\sigma(X)\supset\sigma(C_i;i=1,2,\dots,N)$ ならば, $y_i(x)=1$, $x\in[0,1]$ である.
証明. (i) 定義より, $\mathcal{X}_i\subset [0,1]$ である. 逆の包含は, 任意の $x\in[0,1]$ に対し, Sierpinski の定理から, $\exists A\in\mathcal{B}_S$ s.t. $x=P(X\in A|\Omega\setminus C_i)$ であることより分かる.
(ii) (i) より $y_i(x)$ は $[0,1]$ 上で定義される. $x_1\leq x_2$ とする. $X^{-1}(A)\in\mathcal{A}_i(x_1)$ を任意に取る. Sierpinski の定理より, ある $B\in\mathcal{B}_S$, $A\subset B$ に対し, $x_2=P(X\in B|\Omega\setminus C_i)$ とできる. よって, $P(X\in A|C_i)\leq P(X\in B|C_i)\leq y_i(x_2)$ である. したがって, $y_i(x_1)\leq y_i(x_2)$ を得る.
(iii), (iv) はそれぞれ命題 10-(ii),(iii) と (i),(ii) の主張より明らかである. □
仮定 (H) がない場合は次の例のようにROC曲線は単調増加とは限りません.
例 12 . $\Omega=\{0,1,2\}$, $\mathcal{F}=2^\Omega$, $P(\{0\})=1/12$, $P(\{1\})=2/3$, $P(\{2\})=1/4$とする. また, $\{0,1\}$-値確率変数
\begin{align*}
X(\omega)=\left\{
\begin{array}{ll}
0, & \omega=0,1, \\
1, & \omega=2
\end{array}
\right.
\end{align*}
とする. クラス $C_1=\{1\}$, $C_2=\{0,2\}$ とする. このとき, $\{0\},\{1\}$ は $P_X(\cdot|C_2)$ の atom である. クラス $C_1$ に対するROC曲線は $C_{\text{ROC}}(1)=\{(0,0),(1/4,1),(3/4,0),(1,1)\}$ である. □
ROC曲線による性能評価
以上をまとめると, 実用の多くの場合において, 次のことが言えるでしょう.
- ROC曲線は $[0,1]$ 上の単調増加関数.
- 識別クラスに関する情報を我々が全く知らず, 当てずっぽうでクラス識別する8場合は, ROC曲線は直線 $y=x$ になる. そのため, ROC曲線が直線 $y=x$ に近い識別モデルは, 当てずっぽうでクラス識別しているのとそう変わらないかも知れない.
- 識別クラスに関する情報を我々が完全に知っている場合の識別では, ROC曲線は直線 $y\equiv 1$ である. そのため, 直線 $y\equiv 1$ に近いROC曲線が得られる識別モデルは識別性能の高いモデルであるといえそう.
以上を踏まえると, 識別性能の高いモデルのROC曲線の下側の領域の面積 $\int_0^1 y_i(x)dx$9 は 1 に近く, 低いものは 1/2 に近くなるということになります. このROC曲線の下側の面積を AUC (Area Under the Curve) と呼びます.
実用でのROC曲線
実用の上では, すべての識別規則を網羅して調べることは簡単とは限らないので, パラメータを付けた単純な識別規則のみを考え, そのパラメータを動かすことで偽陽性率・真陽性率をプロットするようです.
例えば 2 クラス識別では, $X$ を $\mathbb{R}$-値とし, 識別規則は $\{X\geq a\}$ あるいは $\{X\leq a\}$ のみを考え, $a\in\mathbb{R}$ を $-\infty$ から $\infty$ へスライドさせて偽陽性率・真陽性率を計算する, というようなやり方が多いようです.
おわりに
これでようやくベイズの識別規則について理解が進められたと思います. この記事ではちゃんと数学として議論するんだったらこうなるのかな, という定義や論理展開としました. ただ, このような形で書いてある文献を見付けることができなかったので, おかしいところがあるかも知れません. 何かありましたら, 今後記事を更新していこうと思います.
参考文献
[1] 平井有三, はじめてのパターン認識, 2012, 森北出版.
[2] J. Carso, Bayesian Decision Theory, スライド
[3] R. Zanibbi, Bayesian Decision Theory, スライド
[4] 舟木直久, 確率論, 2004, 数学の考え方 (20), 朝倉書店.
[5] N. Ikeda and S. Watanabe, Stochastic Differential Equatations and Diffusion Processes, 1988, North Holland.
[6] V.I. Bogachev, Measure Theory, Vol.I-II, 2007, Springer.
[7] Atom - Encyclopedia of Mathematics
-
個人の感想です. ↩
-
$\sigma(X)$-可測のこと. $\sigma(X)$ は $X$ により生成される $\sigma$-加法族, すなわち $\sigma(X)=\{X^{-1}(A):A\in\mathcal{B}_S\}$ である. ↩
-
ある $P$-零集合を除いて成り立つことをいう. a.s. は ''almost surely'' の略である. ↩
-
証明は演習問題とする. (細かいことですが, 可測空間 $(\Omega,\sigma(X))$ は $P$ のもとで完備化されていると思っていいです.) ↩ ↩2
-
$\sigma(C_i;i=1,\dots,N)$ はすべての $C_i$ を含む最小の $\sigma$-加法族. ↩
-
実用ではユークリッド空間 $\mathbb{R}^d$ 上の連続型確率分布でのモデルが多いと思います. ↩
-
例えば, $P_X$ が局所コンパクト Hausdorff 空間上の, 1 点の測度が常に 0 であるような Radon 測度であれば, この仮定は満たされます. Atom については [6-7] 等参照. ↩
-
はじパタには「ランダムな識別器」とあり, またこの記事を書く上で調べた文献にもこのような表現がよく見られました. 要するに全くの"当てずっぽう"や"デタラメ"で識別クラスを選んでいるという意味なのですが, 確率測度 $P$ に基づいて"ランダム" (確率的) に値の決まる $X$ からクラスを識別するので, どんな識別規則もまた"ランダム"と言えます. 真に意味することが伝わりにくいので, 安易に"ランダム"を使うのは避けたいところです. ↩
-
もちろんですが, $y_i(x)$ が Borel 可測になるときに定義されます. ↩