More than 3 years have passed since last update.

情報理論-確率・統計

Last updated at 2022-02-27Posted at 2021-06-17

情報理論-確率・統計

学習したことを忘れないように残そうかと。
数学的な表現が適切でないかもですが。。。

##確率の種類

頻度確率(客観確率)
ベイズ確率(主観確率)

##条件付き確率
ある事象 X = x で、Y = yになる確率

P(Y=y | X=x) = \frac{P(Y=y, X = x)}{P(X=x)} \\
= \frac{P(X=x|Y=y)p(Y=y)}{P(x)}\\
= \frac{P(X=x|Y=y)p(Y=y)}{\sum P(X=x|Y=y)P(X=x)}\\

※英語を元にした表記なので、記述順がこうなっている。

お互いの発生に因果関係のない事象 X=xと事象Y=yが同時に発生する確率

\begin{align}
P(X=x, Y=y) &= P(X=x)P(Y=y)\\
&= P(Y=y, X = x)
\end{align}

例題１

球の色は白か赤。大きさは大・小の2種類。
$p(C_k = 白|x=大)$を求める。
　　大小
白：12 28
赤：4 20

難しく考えず、大きいものの中から、白の確率を求める。

$p(C_k = 白|x=大) = \frac {12}{12+4}$

###ベイズ定理
0.01%が罹患している病気を考える。
罹患している人が検査して陽性とされる確率が95%。
罹患していない人が陰性と判定される確率は80%。
検査を受けて陽性という判定を受けたとき、本当に罹患している確率はいくつ？

陽性になる事象を事象 A
陰性になる事象を事象 $A^c$
実際に罹患している事象を $B_1$
罹患していない事象を $B_2$

\begin{align}
P(B_1|A) &=& \frac{P(B_1)P(A|B_1)}{P(B_1)P(A|B_1) + P(B_2)P(A|B_2)}\\
\\
P(B_1) &=& 0.0001\\
P(B_2) &=& 1 - 0.0001= 0.9999\\
P(A^c|B_2) &=& 0.80\\
P(A|B_2) &=& 1-0.8 = 0.2
\end{align}

計算すると

\begin{align}
P(B_1|A) &=& \frac{P(B_1)P(A|B_1)}{P(B_1)P(A|B_1) + P(B_2)P(A|B_2)}\\
&=& \frac{0.0001 \times 0.95}{ 0.0001 \times 0.95 + 0.9999 \times 0.20}\\
&=& 0.000475
\end{align}

##期待値

事象X : $x_n$
確率変数 f(X): $f(x_n)$
確率P(X) : $P(x_n)$

離散的な値の場合の期待値は

\sum_{k=1}^{n}P(X = x_k)f(X=x_k)

要するにかけてたす。
連続する値の期待値は

\int P(X=x)f(X=x)dx

要するに積分する

##分散
・データの散らばり具合
・期待値からどれだけずれているか、平均したもの

分散 $Var(f)$
期待値 $E_(f)$

\begin{align}
Var(f)
&= E((f_{(X=x)}-E_{(f)})^2)\\
&= E(f^2_{(X=x)})-(E_{(f)})^2
\end{align}

分散は2乗しているので、平方根を求めれば、元の単位に戻るよ。

\begin{align}
\sigma 
&= \sqrt{Var(f)}\\
&= \sqrt{E((f_{(X=x)}-E_{(f)})^2)}\\
&= \sqrt{E(f^2_{(X=x)})-(E_{(f)})^2}

\end{align}

##共分散
２つのデータ系列の傾向
・正の値になると、似た傾向
・負の値になると、逆の傾向
・0は関係性に乏しく、1に近いほど相関性が強い

共分散 Cov(f, g)
期待値 $E_(f)$

\begin{align}
Cov(f, g)
&= E((f_{(X=x)}-E(f))(g_{(Y=y)}-E(g))\\
&= E(fg)-E(f)E(g)
\end{align}

##確率分布
###ベルヌーイ分布
コイントスのイメージ。表と裏で出る割合が等しくなくても扱える。

P(x|\mu)= \mu^x(1-\mu)^{1-x}

###マルチヌーイ（カテゴリカル）分布
さいころを転がすイメージ。各面の出る割合が等しくなくとも扱える

###二項分布
ベルヌーイ分布の多試行版(ベルヌーイ分布をn回繰り返したときの分布)

P(x|\lambda, n)= \frac{n!}{x!(n-x)!}\lambda^x(1-\lambda)^{n-x}

確率変数Xが確率 p で1, 確率qで0になる場合、確率分布の平均はnp, 分散はnpqになる。

###ガウス分布

N(x;\mu,\sigma^2)= \sqrt{\frac{1}{2\pi\sigma^2}}exp(-\frac{1}{2\sigma^2}(x-\mu)^2)

##情報理論
###自己情報量
・対数の底が2の時、単位はビット(bit)
・対数の底がネイピア数eの時、単位はナット(nat)

I(x) = -log(P(x)) = log(W(x))

###シャノンエントロピー
自己情報量の期待値

\begin{align}
H(x) &= E(I(x))\\
&= -E(log(P(x)))\\
&= -\sum(P(x)log(P(x)))
\end{align}

###カルバック・ライブラー　ダイバージェンス
同じ事象・確率変数における異なる確率分布P,Qの違いを表す。
同じ確率分布だと 0 になる。
似ていないほど、大きな値になる。
KLダイバージェンス、KL情報量とも言う。
生成モデルで使うらしい。

\begin{align}
D_{KL}(p||q) &= E_{x〜p}[logP(x)-logQ(x)]\\
&= \sum_x P(x)(-log(Q(x))-(-log(P(x)))\\
&= \sum_x P(x)log\frac{P(x)}{Q(x)}
\end{align}

###交差エントロピー
・KLダイバージェンスの一部分を取り出したもの
・Qについての自己情報量をPの分布で平均している

\begin{align}
H(P,Q) &= H(P) + D_{KL}(P||Q)\\
&= -E_{x〜P}logQ(x)\\
&= -\sum_xP(x)logQ(x)
\end{align}

指揮の導き方

\begin{align}
D_{KL}(P||Q)&= \sum_x P(x)(-log(Q(x))-(-log(P(x)))\\

これを下記のように定義すると、\\
H(P,Q) &= P(x)(-log(Q(x))\\
H(P) &= P(x)(-log(P(x)))\\
なので、\\
H(P,Q) &= H(P) + D_{KL}(P||Q)
\end{align}

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up