はじめに
前回に続き、機械学習界隈で有名なパターン認識と機械学習(PRML)を読んで学んだ内容を書いていきたいと思います。
前回記事はこちら:
今回は確率論について書きます。
1.2 確率論
パターン認識の分野では不確実性の概念が重要である。データサイズが有限であることや、計測ノイズなどによって不確実性が発生する。確率論は不確実性に対して定量化と一貫した枠組みを与え、パターン認識の基礎となっている。
確率に関する記号
- ある事象Aが起きる確率: $p(A)$
- ある事象A, Bが同時に起きる確率(同時確率): $p(A, B)$
- Bが与えられた下でAが起きる確率(条件付き確率): $p(A|B)$
確率に関する定理
加法定理
事象A, Bが同時に起こらない場合、次の式が成り立つ
$$
P(A \cup B) = P(A) + P(B)
$$
PRMLでは周辺化について例が提示されている。
周辺化とは同時確率が与えられた時に、着目していない方の確率変数が取り得るすべての値いについて同時確率を計算し和を取ることである。
つまり、ある事象X, Yについて、X, Yの同時確率からXが起きる確率を求めるには下式となる。
$$
p(X) = \sum_Yp(X,Y)
$$
例えば、X={1, 2, 3}, Y={1,2,3}の値を取るとするとX=1となる確率は
\sum_Yp(X=1,Y) = \\
p(X=1, Y=1)+p(X=1, Y=2)+p(X=1, Y=3)
乗法定理
事象A, Bが起きる同時確率は下式で求められる。
$$
P(A, B) = P(B)P(A | B)
$$
ベイズの定理
乗法定理を下式の通り変換する。
\begin{align}
P(A, B) &= P(B)P(A | B) \\
P(A | B) &= \frac{P(A, B)}{P(B)} \\
P(A | B) &= \frac{P(A)P(B|A)}{P(B)}
\end{align}
$P(A | B) = \frac{P(A)P(B|A)}{P(B)}$をベイズの定理と呼ぶ
1.2.1 確率密度
PRMLには確率密度は下記と定義されている。
- 実数値をとる変数$x$が区間$(x, x+\delta x)$に入る確率が、$\delta x →0$のとき$p(x)\delta x$で与えられるとき、$p(x)$を$x$上の確率密度と呼ぶ
定義域内での確率変数$X$の値の相対的な出やすさを表すものと理解するのが理解しやすいと感じた。
確率密度は以下の2つの条件を満たす
- $p(x) \ge 0$
- $\int_{-\infty}^{\infty}p(x)dx=1$
確率は負にはならないし、確率密度の総和は1になるということである。
また、$x$が区間$(a, b)$ににある確率は$p(x)$をaからbまで積分することで求められる。
$$
p(x \in (a,b)) = \int^{b}_{a}p(x)dx
$$
確率変数の変数変換
確率変数$x, y$があり、$x=g(y)$の関係がある時、それぞれの確率密度$p_x(x), p_y(y)$の間にどのような関係があるか考える。
確率密度関数の性質より、$\delta x$が十分に小さければ、区間$(x, x + \delta x)$の確率と区間$(y, y + \delta y)$の確率は近似できる(なぜ近似できるのかの説明を見つけることができなかったため、知っている方は教えてください)。
\begin{align}
p(x)_x\delta x \simeq p(y)_y\delta y \\
p_y(y) = p_x(x)\frac{\delta x}{\delta y}
\end{align}
非負性を保証するために、絶対値をつけて
\begin{align}
p_y(y) &= p_x(x) |\frac{\delta x}{\delta y}| \\
&=p_x(g(y))|\frac{dg(y)}{dy}| \\
&=p_x(g(y))|g'(y)|
\end{align}
ここで、$\frac{dg(y)}{dy}$はヤコビアンと呼ばれる。
1.2.2 期待値と分散
期待値
期待値とは、確率変数が取る値の重み付きの平均値である。ある関数$f(x)$の確率分布$p(x)$の下での平均値と捉えることもできる。例えば、サイコロを1つ振る時の期待値は
$$
\frac{1}{6}*(1+2+3+4+5+6)
$$
となる。
期待値は$\mathbb{E}$で表される。ある関数$f(x)$の確率分布が$p(x)$で離散分布の場合(例: サイコロ)、
$$
\mathbb{E}[f]=\sum_xp(x)f(x)
$$
変数$x$が連続な場合は、確率密度の積分で表される。
$$
\mathbb{E}[f]=\int p(x)f(x)dx
$$
分散
$f(x)$の分散は以下の通り定義される。
\begin{align}
var[f] = \mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2]
\end{align}
上式を展開する。
\begin{align}
var[f] &= \mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2] \\
&= \mathbb{E}[(f^2(x)-2f(x)\mathbb{E}[f(x)]+\mathbb{E}[f(x)]^2)] \\
&= \mathbb{E}[f^2(x)] -2\mathbb{E}[f(x)]\mathbb{E}[\mathbb{E}[f(x)]]+\mathbb{E}[\mathbb{E}[f(x)]^2] \\
&=\mathbb{E}[f^2(x)]-2\mathbb{E}[f(x)]\mathbb{E}[f(x)] +\mathbb{E}[f(x)]^2 \\
&=\mathbb{E}[f^2(x)]-\mathbb{E}[f(x)]^2
\end{align}
$\mathbb{E}[f(x)]$は定数となるため、$\mathbb{E}[\mathbb{E}[f(x)]]=\mathbb{E}[f(x)]$となる。
2つの確率変数$x, y$の共分散は下記で定義される。
\begin{align}
cov[x, y] &= \mathbb{E}_{x,y}[(x-\mathbb{E}[x])(y-\mathbb{E}[y])]
\end{align}
上式を変形すると
\begin{align}
cov[x, y] &= \mathbb{E}_{x,y}[(x-\mathbb{E}[x])(y-\mathbb{E}[y])] \\
&= \mathbb{E}_{x,y}[(xy-x\mathbb{E}[y]-y\mathbb{E}[x]+\mathbb{E}[x]\mathbb{E}[y]] \\
&= \mathbb{E}_{x,y}[xy]-\mathbb{E}[x]\mathbb{E}[y]-\mathbb{E}[y]\mathbb{E}[x]+\mathbb{E}[y]\mathbb{E}[x] \\
&= \mathbb{E}_{x,y}[xy]-\mathbb{E}[x]\mathbb{E}[y]
\end{align}
となる。
1.2.3 ベイズ確率
観測データ$D=\lbrace t_1, t_2...,t_N\rbrace$, パラメータベクトルを$\mathbf{w}$とする。ある観測データを観測する確率は$p(D|\mathbf{w})$と書ける。この時、ベイズの定理は
$$
p(\mathbf{w}|D) = \frac{p(D|\mathbf{w})p(\mathbf{w})}{p(D)}
$$
となる。
この時、$p(D|\mathbf{w})$は、パラメータベクトル$\mathbf{w}$を固定した時に観測されたデータ集合がどれくらい起きやすいかを表しており、尤度関数(ゆうどかんすう)と呼ばれる。また、$p(D|\mathbf{w})$を最大にする$\mathbf{w}$を選ぶことを最尤推定と呼ぶ。
1.2.4 ガウス分布
確率分布の中でも重要なガウス分布は以下の式で表される。
$$
\mathcal{N}(x|\mu, \sigma^2) = \frac{1}{(2\pi\sigma^2)^{1/2}}\exp{\lbrace -\frac{1}{2\sigma^2}(x-\mu)^2\rbrace}
$$
ここで、$\mu$は平均、$\sigma^2$は分散を表す。
ガウス分布では以下が成り立ち、確率密度の満たすべき2つの要件を満たしている。
\begin{align}
\mathcal{N}(x|\mu, \sigma^2) > 0 \\
\int_{-\infty}^{\infty}\mathcal{N}(x|\mu, \sigma^2)dx =1
\end{align}
ガウス分布に対する最尤推定
データ点が同じ分布から独立に生成される時、データ集合$X$={x_1, x_2...,x_N}が得られる確率は確率の乗法定理を用いて下記で表される。
$$
p(X|\mu, \sigma^2)=\prod_{n=1}^N\mathcal{N}(x_n|\mu, \sigma^2)
$$
この式はデータ集合$X$がどれくらい得やすいかの尤度関数とみなすことができる。
この尤度関数を最大化する$\mu$, $\sigma^2$を考える。対数を取ることで、総積から総和に変換する。
$$
\ln p(X|\mu, \sigma^2)=-\frac{1}{2\sigma^2}\sum_{n=1}^N(x_n-\mu)^2-\frac{N}{2}\ln \sigma^2 -\frac{N}{2}\ln(2\pi)
$$
$\mu$に関して偏微分した式が0になる時、$\mu$が最大となるので、
\begin{align}
-\frac{1}{2\sigma^2}\sum^N_{n=1}(-2x_n+2\mu)=&0 \\
\sum^N_{n=1}(x_n+\mu)=&0 \\
\end{align}
となり、
$$
\mu=\frac{1}{N}\sum_{n=1}^Nx_n
$$
の時に$\mu$が最大となります。
同様に$\sigma^2$について偏微分すると、
$$
\frac{1}{2(\sigma^2)^2}\sum^N_{n=1}(x_n-\mu)^2-\frac{N}{2\sigma^2}=0
$$
となり、
$$
\sigma=\frac{1}{N}\sum^N_{n=1}(x_n-\mu)^2
$$
の時に尤度が最大となる。
1.2.5 曲線フィッティング再訪
訓練データ集合$X=(x_1, x_2, ..., x_n)$とそれに対応する目標値$\mathbf{t}=(t_1, t_2, ..., t_n)$があるとする。未知のデータ$x$に対してそれに対応する$t$を予測する。
与えられた$x$に対して、平均が1.1多項式フィッティングに記載の多項式曲線$y(x, \mathbf{w})$に等しいガウス分布から$t$が与えられるとすると$t$が得られる確率は下記になる。
$$
p(t|x, \mathbf{w}, \beta) = \mathcal{N}(t|y(x, \mathbf{w}), \beta^{-1})
$$
ここで、$\beta$は分散の逆数である。これで、未知のパラメータ$\mathbf{w}, x$に対して最尤推定を行うことができる。
$\mathbf{t}$が上式の分布から独立して取られたと仮定すると、乗法定理より、
$$
p(\mathbf{t}|x, \mathbf{w}, \beta) = \prod_{n=1}^N\mathcal{N}(t_n|y(x_n, \mathbf{w}), \beta^{-1})
$$
対数を取ると
$$
\ln p(\mathbf{t}|x, \mathbf{w}, \beta)=-\frac{\beta}{2}\sum_{n=1}^N(y(x_n, \mathbf{w})-t_n)^2-\frac{N}{2}\ln \beta -\frac{N}{2}\ln(2\pi)
$$
となる。左辺を最大化する$\mathbf{w}$, $\beta$は右辺を$\mathbf{w}$または$\beta$で偏微分することで求められる。
おわりに
確率の節はPRMLで割かれているページ数も理解が難しいところも多々ありました。何か間違っているところがあればご指摘ください。
関連記事
参考