1. はじめに
これまでは「ベイズ推論による機械学習入門」を用いて基本的な確率分布や混合分布についての学習を行っていたが、もっと基本的かつ実用的な知識を得たいと思い機械学習を学ぶ上で必読書とされている「パターン認識と機械学習」[通称PRML]を用いて、よりベイズ的な観点から機械学習を学んでいきます。
また、それに伴いアウトプットとして今回のように記事を書いていきます。
手始めとして~第1章 序論~についてまとめていきます。
2. 確率論と決定理論
はじめにパターン認識の分野における基礎の中心を担っている確率論とパターン認識において遭遇する最適な意思決定を可能にする決定理論について述べていく。
2.1 確率論
-
確率論
:事象の不確実性に関する定量化と操作に関して一貫した枠組みを与える理論。
ここで扱う確率には二つの主義による解釈が存在する。
1.確率はランダムな繰り返し試行の頻度である。(古典的確率 or 頻度主義的な解釈)
2.確率は不確実性の度合いを表している。(ベイズ主義的な解釈)
PRMLにおいては2.のベイズ主義的な解釈をメインに扱っており、ベイズの定理を用いて様々なパターン認識に対する考え方を解説している。
[ベイズ主義におけるベイズの定理]
ある観測データ$D$が得られたとき(事後)のwにおける確率分布(事後分布)という形で不確実性を評価することを可能としている。
[ベイズの定理]
$$
p(w\ |\ D) = \frac{p(D\ |\ w)p(w)}{p(D)}
$$
このの右辺である$p(D\ |\ w)$はデータ集合$D$に対する評価であり、wを固定したときの観測データ$D$の起こりやすさを表しており、尤度関数と呼ばれる。
また、分母である$p(D)$に関しては事後分布である$p(w\ | \ D)$がwに関して積分したとき1になるための正規化項である。
ベイズ主義においては、左辺である事後分布の最大値を求めることをタスクとする。
[多項式回帰へのベイズ的アプローチ]
多項式曲線に対して与えらたN個の訓練データ集合である$\mathbf{x}=\lbrace x_1, \cdots , x_N\rbrace^T$とそれに対応する目標値である$\mathbf{t} = \lbrace t_1, \cdots, t_N\rbrace ^T$に基づいて、与えられた新たな入力xから出力tを予測することが目標である。
よって出力tは以下のガウス分布に従うと仮定する。
$$
p(t\ |\ x, \mathbf{w}, \beta) = \mathcal{N}(t\ |\ y(x, w), \beta^{-1}) \\
[y(x, w):入力の重み付き平均, \mathbf{w}:パラメータベクトル, \beta:精度パラメータ]
$$
これを訓練データ{$\mathbf{x}, \mathbf{t}$}に適用し、未知のパラメータ$\mathbf{w},\beta$を求めるために尤度関数に対して対数をとり、wについて最大化することで最尤解を求めることができる。
ただこれに対してパラメータ$\mathbf{w}$に関する事前分布を導入することでよりベイズ的にアプローチをする。
事前分布として、以下のようなガウス分布について考える。
$$
p(\mathbf{w}\ |\ \alpha) = \mathcal{N}(\mathbf{w}\ |\ \mathbf{0}, \alpha^{-1}\mathbf{I}) = \left( \frac{α}{2pi} \right)^{(M+1)/2}exp\bigg\lbrace -\frac{\alpha}{2}\mathbf{w}^T\mathbf{w}\bigg\rbrace
$$
ここから訓練データを得られたときの事後分布についてベイズの定理を用いると以下のようになる。
$$
\begin{align}
p(\mathbf{w}\ |\ \mathbf{x}, \mathbf{t}, \alpha, \beta)
&\propto p(\mathbf{x}, \mathbf{w}, \mathbf{t}, \alpha, \beta)\\
&\propto p(\mathbf{t}\ |\ \mathbf{x}, \mathbf{w}, \beta)p(\mathbf{w}\ |\ \alpha )
\end{align}
$$
これは[事後分布 = 尤度関数×事前分布]の形を取っており、ここから与えられたデータに基づいて最も確からしい$\mathbf{w}$すなわち、事後分布を最大化する$\mathbf{w}$を決めることができるようになった。
このようにして、事後分布を最大化するパラメータを求める推定のことを最大事後確率推定またはMAP推定という。
[完全なベイズアプローチ]
事前分布を組み込むだけでは、$\mathbf{w}$の点推定にしかすぎない。
完全なベイズアプローチにおいては確率の乗法・加法定理を適用し、$\mathbf{w}$のすべての値に関して周辺化を行う必要がある。
また、多項式曲線の回帰問題において目標は入力xをもとに出力tを予測することにあるため予測分布について評価する必要がある。
2.1 決定理論
-
決定理論
:確率論と組み合わせることでパターン認識で遭遇する不確かさを含む状況における最適な意思決定を行うことを可能にする理論
[誤識別の最小化]
誤識別を最小化したいと考えたときにいくつかに空間を分け、そこにうまく分類することができれば良いというような規則が必要とされる。
このような規則において分割された空間の境界を決定境界といい、空間自体を決定領域と呼ぶ。
ある入力データ$\mathbf{x}$に対して、K個あるクラス$\mathcal{C_k}$とその決定領域を$\mathcal{R_k}$としたときにおける正解というのは、xが所属するRと判断されたクラスCが同一のKの時より、同時確率を考えると、以下のように表すことができる。
$$
\begin{align}
p(正解) &=
\displaystyle \sum_{k = 1}^{K}p(x \in \mathcal{R_k} ,\mathcal{C_k})\\
&= \displaystyle \sum_{k = 1}^{K} \int_{\mathcal{R_k}}p(\mathbf{x}, \mathcal{C_k})d{\mathbf{x}}
\end{align}
$$
これを最大化することが誤識別の最小化につながる。
[期待損失の最小化]
実際の問題において単に誤識別を最小化すればいいという問題ばかりではない。
例えば医療の癌判断を例に出すと以下のような誤識別が考えられる。
- 癌ではないひとを癌と判断してしまい、さらに検査を要した。
- 癌の人を癌でないと判断してしまい、本来もう少し生きれた方が早く死を迎えた。
この二つの誤識別において、後者の誤識別を減らしたほうが自明である。
このような場合を定式化するために決定理論では、損失関数と呼ばれる各行動に対して生じる損失を表す尺度を導入した。
ただ、これをそのまま適応するためには未知である真の情報が必要なので、入力ベクトル$\mathbf{x}$に対するクラス$C_k$の不確実性を表すために同時確率分布を用いることで損失の平均(=期待損失)を計算し、最小化することで最適解を導くことができる。
期待損失については以下式で表される。
$$
\mathbb{R}[L] = \displaystyle \sum_{k}\displaystyle \sum_{j}\int_{\mathcal{R_j}}L_{kj}p(\mathbf{x}, C_k)d\mathbf{x}
$$
これをもとに乗法定理を用いると期待損失の最小化は以下式を最小化することにつながる。
$$
\displaystyle \sum_{k}L_{kj}p(C_k\ |\ \mathbf{x})
$$
[推論と決定]
クラス分類モデルは訓練データから事後分布を学習する推論段階と推論後に事後分布をもとに最適なクラスを割り当てる決定段階に分けられる。
(*例外としてこれらを同時に解く識別関数というものも存在する。)
実際の応用においては以下の三つのアプローチでこの分類タスクを行っている。
-
生成モデル
生成モデルは事前分布を求めそこから事後分布を求めていくというアプローチのことである。
これは出力のみならず入力の分布をモデル化する側面もあり、モデルからのサンプリングで人工データを
作成できることから生成モデルと言われている。(ベイズ的アプローチ)
<メリット>
- 入力の分布も知ることができるため、外れ値検出に対して有用
<デメリット> - 必要以上の計算リソースが必要である。
-
識別モデル
事前分布を用いずに直接事後確率をモデル化するアプローチのこと
現在における一般的なアプローチ手法
<メリット>
- 計算リソースの無駄がない。
-
識別関数
入力から直接出力を写像するような関数を見つけるアプローチ
そのため確率は出てこない。
<デメリット>
- 汎化性能が低い
- 事後確率を用いていない。
[事後確率を用いることの有用性]
- リスク最小化
: 損失行列の要素が時間と共に変化する場合、期待損失の最小化に関する規則を変えるだけでよい - 棄却オプション
: 事後確率があることで、棄却基準を定めることで与えられた棄却データ点に対する誤識別率やより一般に期待損失を最小にすることが可能 - クラス事前確率の補正
: データに対してクラスに偏りがあるときにおいて、事前分布を設定し直すことで間接的に事後分布を求めることができる。 - モデルの結合
: 複雑な問題を解くときに問題を分割することがあり、最終的に出力を結合する際に条件付き独立と仮定をおくことで最終的な事後分布を求めることができる。
3. 情報理論
[パターン認識や機械学習における情報理論]
ある離散値確率変数xにおいて特定の値を考えたとき、どれだけの情報を受け取るかを考える。
そのさいに得られる情報の平均量が重要な量とされており、以下の式で表されるその量のことを確率変数xに対するxのエントロピー $H[x]$と呼ぶ。
<エントロピー>
$$
H[x] = \displaystyle \sum_{x}p(x)\log p(x)
$$
ここに関してノイズなし符号化定理はエントロピーは確率変数の状態を送るために必要なビット数の下界であることを主張しているらしいです、、。(ここに関しては情報理論の勉強が必要なのかなと思いました。)
[離散型確率変数におけるエントロピー]
そもそもエントロピーは物理学を起源としており、統計力学の発展と共に乱雑さを測る尺度へと発展していった。
PRMLでは、エントロピーに対する別の見方を理解するために$N$個の同じ物体がたくさんの箱の中に分けられている状況について考えている。
たくさんある中のi番目の箱に対して中に入っている物体の個数を$n_i$とした時、$N$この物体の箱への入れ方の総数は**多重度[W]**と呼ばれ、以下式で表される。
$$
W = \frac{N!}{\Pi_{i}n_i!}
$$
このとき、エントロピーは多重度の対数を定数倍したものと定義され、 以下のように表される。
$$
H = \frac{1}{N}\ln {W} = \frac{1}{N}\ln {N}-\frac{1}{N}\displaystyle \sum_{i}\ln {n_i}!
$$
このエントロピーの考え方に加えて、$n_i/N$を一定に保ったまま、$N→∞$という極限を考えた上で、スタリングの近似式を使うとエントロピーは以下式のように表される。
$$
H = -\lim_{N→∞}\displaystyle \sum_{i}{p_i}\ln p_i \\
\bigg[p_i = \lim_{N→∞}\bigg(\frac{n_i}{N} \bigg):物体がi番目の箱に割り当てられる確率\bigg]
$$
この式において、$p_i$を離散確率変数$X = x_i$の状態における確率質量関数の値と考えると確率変数$X$のエントロピーは以下式で表すことができる。
$$
H[p] = - \displaystyle \sum_{i}p(x_i)\ln p(x_i)
$$
- 離散型確率分布においては尖度が低い分布の方が尖度が高い分布に比べてエントロピーは高くなり、最大のエントロピーを持つ分布は一様分布である。
[連続型確率変数におけるエントロピー]
連続型確率変数におけるエントロピーは離散型確率変数において$x_i$と$x_{i+1}$の間を等間隔の区間$\Delta$が存在していると仮定し、$\Delta→0$の極限を考えることで定義することができる。
まず離散型のとる確率変数について考えていく。
平均値の定理より各区間に対して以下の式を満たす$x_i$が必ず存在する。
$$
\int_{i\Delta}^{(i+1)\Delta}p(x)dx = p(x_i)\Delta
$$
よってこれを元に離散型のエントロピーの定義より
$$
\begin{aligned}
H_\Delta &= -\displaystyle \sum_{i}p(x_i)\Delta \ln (p(x_i)\Delta) \\
&= -\bigg\lbrace \displaystyle \sum_{i}p(x_i)\Delta \ln p(x_i)
+ \ln\Delta \bigg\rbrace
\end{aligned}
$$
ここで$\Delta→0$の極限を考えて
$$
\begin{aligned}
H_\Delta &= -\lim_{\Delta→0}
\bigg\lbrace \displaystyle \sum_{i}p(x_i)\Delta \ln p(x_i)
+ \ln\Delta \bigg\rbrace \\
&= -\int p(x)\ln p(x)dx - \lim_{\Delta→0}\ln{\Delta}
\end{aligned}
$$
この式において右辺の第二項は考えている極限においては、発散するため一旦おいといて第一項を連続確率変数におけるエントロピーと定義できる。またこのエントロピーを微分エントロピーという。
- 連続型確率分布において最大のエントロピーをとるのはガウス分布である
[相対エントロピーとKLダイバージェンス]
パターン認識においてある未知の分布$p(x)$に対して、近似的にモデル化した$q(x)$がある時この分布における情報量の差を定量化したものを相対エントロピーまたはKLダイバージェンス$[KL(p\ ||\ q)]$と呼び、以下の式で表される。
$$
\begin{aligned}
KL(p\ ||\ q) &= -\int p(\mathbf{x})\ln q(\mathbf{x})d\mathbf{x}
-\bigg(-\int p(\mathbf{x})\ln p(\mathbf{x})d\mathbf{x}\bigg) \\ &= -\int p(\mathbf{x})\ln \bigg \lbrace\frac{q(\mathbf{x})}{p(\mathbf{x})}\bigg \rbrace d\mathbf{x}
\end{aligned}
$$
KLダイバージェンスは$KL(p\ ||\ q) \geq 0$を満たし、等式が成り立つのは$p(x)= q(x)$のとき限りであることを示している。このことは凸関数の概念とイェンセンの不等式を適用することで示される。
上式は変数が一つの時の分布の近似度合いを表しているがこのKLダイバージェンスを用いることで、
2つの変数の集合である$\mathbf{x}$と$\mathbf{y}$において、変数間の独立具合いを測る値を算出することができる。
この値を相互情報量$\ I[\mathbf{x},\mathbf{y}]$と呼ぶ。
これは$\mathbf{x}$と$\mathbf{y}$の同時分布と周辺分布の積間でのKLダイバージェンスを求めることで$\mathbf{x}$と$\mathbf{y}$が独立に近いかどうかを表している。
$$
\begin{aligned}
I[\mathbf{x},\mathbf{y}] &= KL\big(p(\mathbf{x},\mathbf{y})\ ||\ p(\mathbf{x})p(\mathbf{y})\big) \\
&= -\int \int p(\mathbf{x},\mathbf{y}) \ln
\frac{p(\mathbf{x})p(\mathbf{y})}{p(\mathbf{x, y})}d\mathbf{x}d\mathbf{y}
\end{aligned}
$$
また相互情報量は条件付きエントロピーと組み合わせると、データ$\mathbf{y}$を観測することで結果として$\mathbf{x}$に関する不確実性が減少した度合いを表すと見ることもできる。
4. 終わりに
今回は自分が大事だなと思ったところをピックアップしました。
ただかなり長くなったのでもう少し要約するべきだったなと終わってから思いました。
この次の章の確率分布やその次の線形基底回帰モデルは事前に学習した知識の復習と新しい知識の吸収を兼ねているので時間をあまりかけず下巻に早く入れるよう頑張りたいと思います。