情報理論-確率・統計
学習したことを忘れないように残そうかと。
数学的な表現が適切でないかもですが。。。
##確率の種類
- 頻度確率(客観確率)
- ベイズ確率(主観確率)
##条件付き確率
ある事象 X = x で、Y = yになる確率
P(Y=y | X=x) = \frac{P(Y=y, X = x)}{P(X=x)} \\
= \frac{P(X=x|Y=y)p(Y=y)}{P(x)}\\
= \frac{P(X=x|Y=y)p(Y=y)}{\sum P(X=x|Y=y)P(X=x)}\\
※英語を元にした表記なので、記述順がこうなっている。
お互いの発生に因果関係のない事象 X=xと事象Y=yが同時に発生する確率
\begin{align}
P(X=x, Y=y) &= P(X=x)P(Y=y)\\
&= P(Y=y, X = x)
\end{align}
例題1
球の色は白か赤。大きさは大・小の2種類。
$p(C_k = 白|x=大)$を求める。
大 小
白:12 28
赤:4 20
難しく考えず、大きいものの中から、白の確率を求める。
$p(C_k = 白|x=大) = \frac {12}{12+4}$
###ベイズ定理
0.01%が罹患している病気を考える。
罹患している人が検査して陽性とされる確率が95%。
罹患していない人が陰性と判定される確率は80%。
検査を受けて陽性という判定を受けたとき、本当に罹患している確率はいくつ?
陽性になる事象を事象 A
陰性になる事象を事象 $A^c$
実際に罹患している事象を $B_1$
罹患していない事象を $B_2$
\begin{align}
P(B_1|A) &=& \frac{P(B_1)P(A|B_1)}{P(B_1)P(A|B_1) + P(B_2)P(A|B_2)}\\
\\
P(B_1) &=& 0.0001\\
P(B_2) &=& 1 - 0.0001= 0.9999\\
P(A^c|B_2) &=& 0.80\\
P(A|B_2) &=& 1-0.8 = 0.2
\end{align}
計算すると
\begin{align}
P(B_1|A) &=& \frac{P(B_1)P(A|B_1)}{P(B_1)P(A|B_1) + P(B_2)P(A|B_2)}\\
&=& \frac{0.0001 \times 0.95}{ 0.0001 \times 0.95 + 0.9999 \times 0.20}\\
&=& 0.000475
\end{align}
##期待値
事象X : $x_n$
確率変数 f(X): $f(x_n)$
確率P(X) : $P(x_n)$
離散的な値の場合の期待値は
\sum_{k=1}^{n}P(X = x_k)f(X=x_k)
要するにかけてたす。
連続する値の期待値は
\int P(X=x)f(X=x)dx
要するに積分する
##分散
・データの散らばり具合
・期待値からどれだけずれているか、平均したもの
分散 $Var(f)$
期待値 $E_(f)$
\begin{align}
Var(f)
&= E((f_{(X=x)}-E_{(f)})^2)\\
&= E(f^2_{(X=x)})-(E_{(f)})^2
\end{align}
分散は2乗しているので、平方根を求めれば、元の単位に戻るよ。
\begin{align}
\sigma
&= \sqrt{Var(f)}\\
&= \sqrt{E((f_{(X=x)}-E_{(f)})^2)}\\
&= \sqrt{E(f^2_{(X=x)})-(E_{(f)})^2}
\end{align}
##共分散
2つのデータ系列の傾向
・正の値になると、似た傾向
・負の値になると、逆の傾向
・0は関係性に乏しく、1に近いほど相関性が強い
共分散 Cov(f, g)
期待値 $E_(f)$
\begin{align}
Cov(f, g)
&= E((f_{(X=x)}-E(f))(g_{(Y=y)}-E(g))\\
&= E(fg)-E(f)E(g)
\end{align}
##確率分布
###ベルヌーイ分布
コイントスのイメージ。表と裏で出る割合が等しくなくても扱える。
P(x|\mu)= \mu^x(1-\mu)^{1-x}
###マルチヌーイ(カテゴリカル)分布
さいころを転がすイメージ。各面の出る割合が等しくなくとも扱える
###二項分布
ベルヌーイ分布の多試行版(ベルヌーイ分布をn回繰り返したときの分布)
P(x|\lambda, n)= \frac{n!}{x!(n-x)!}\lambda^x(1-\lambda)^{n-x}
確率変数Xが確率 p で1, 確率qで0になる場合、確率分布の平均はnp, 分散はnpqになる。
###ガウス分布
N(x;\mu,\sigma^2)= \sqrt{\frac{1}{2\pi\sigma^2}}exp(-\frac{1}{2\sigma^2}(x-\mu)^2)
##情報理論
###自己情報量
・対数の底が2の時、単位はビット(bit)
・対数の底がネイピア数eの時、単位はナット(nat)
I(x) = -log(P(x)) = log(W(x))
###シャノンエントロピー
自己情報量の期待値
\begin{align}
H(x) &= E(I(x))\\
&= -E(log(P(x)))\\
&= -\sum(P(x)log(P(x)))
\end{align}
###カルバック・ライブラー ダイバージェンス
同じ事象・確率変数における異なる確率分布P,Qの違いを表す。
同じ確率分布だと 0 になる。
似ていないほど、大きな値になる。
KLダイバージェンス、KL情報量とも言う。
生成モデルで使うらしい。
\begin{align}
D_{KL}(p||q) &= E_{x〜p}[logP(x)-logQ(x)]\\
&= \sum_x P(x)(-log(Q(x))-(-log(P(x)))\\
&= \sum_x P(x)log\frac{P(x)}{Q(x)}
\end{align}
###交差エントロピー
・KLダイバージェンスの一部分を取り出したもの
・Qについての自己情報量をPの分布で平均している
\begin{align}
H(P,Q) &= H(P) + D_{KL}(P||Q)\\
&= -E_{x〜P}logQ(x)\\
&= -\sum_xP(x)logQ(x)
\end{align}
指揮の導き方
\begin{align}
D_{KL}(P||Q)&= \sum_x P(x)(-log(Q(x))-(-log(P(x)))\\
これを下記のように定義すると、\\
H(P,Q) &= P(x)(-log(Q(x))\\
H(P) &= P(x)(-log(P(x)))\\
なので、\\
H(P,Q) &= H(P) + D_{KL}(P||Q)
\end{align}