1
0

More than 1 year has passed since last update.

情報理論-確率・統計

Last updated at Posted at 2021-06-17

情報理論-確率・統計

学習したことを忘れないように残そうかと。
数学的な表現が適切でないかもですが。。。

##確率の種類

  • 頻度確率(客観確率)
  • ベイズ確率(主観確率)

##条件付き確率
ある事象 X = x で、Y = yになる確率

P(Y=y | X=x) = \frac{P(Y=y, X = x)}{P(X=x)} \\
= \frac{P(X=x|Y=y)p(Y=y)}{P(x)}\\
= \frac{P(X=x|Y=y)p(Y=y)}{\sum P(X=x|Y=y)P(X=x)}\\

※英語を元にした表記なので、記述順がこうなっている。

お互いの発生に因果関係のない事象 X=xと事象Y=yが同時に発生する確率

\begin{align}
P(X=x, Y=y) &= P(X=x)P(Y=y)\\
&= P(Y=y, X = x)
\end{align}

例題1

球の色は白か赤。大きさは大・小の2種類。
$p(C_k = 白|x=大)$を求める。
  大 小
白:12 28
赤:4 20

難しく考えず、大きいものの中から、白の確率を求める。

$p(C_k = 白|x=大) = \frac {12}{12+4}$

###ベイズ定理
0.01%が罹患している病気を考える。
罹患している人が検査して陽性とされる確率が95%。
罹患していない人が陰性と判定される確率は80%。
検査を受けて陽性という判定を受けたとき、本当に罹患している確率はいくつ?

陽性になる事象を事象 A
陰性になる事象を事象 $A^c$
実際に罹患している事象を $B_1$
罹患していない事象を $B_2$

\begin{align}
P(B_1|A) &=& \frac{P(B_1)P(A|B_1)}{P(B_1)P(A|B_1) + P(B_2)P(A|B_2)}\\
\\
P(B_1) &=& 0.0001\\
P(B_2) &=& 1 - 0.0001= 0.9999\\
P(A^c|B_2) &=& 0.80\\
P(A|B_2) &=& 1-0.8 = 0.2
\end{align}

計算すると

\begin{align}
P(B_1|A) &=& \frac{P(B_1)P(A|B_1)}{P(B_1)P(A|B_1) + P(B_2)P(A|B_2)}\\
&=& \frac{0.0001 \times 0.95}{ 0.0001 \times 0.95 + 0.9999 \times 0.20}\\
&=& 0.000475
\end{align}

##期待値

事象X : $x_n$
確率変数 f(X): $f(x_n)$
確率P(X) : $P(x_n)$

離散的な値の場合の期待値は

\sum_{k=1}^{n}P(X = x_k)f(X=x_k)

要するにかけてたす。
連続する値の期待値は

\int P(X=x)f(X=x)dx

要するに積分する

##分散
・データの散らばり具合
・期待値からどれだけずれているか、平均したもの

分散 $Var(f)$
期待値 $E_(f)$

\begin{align}
Var(f)
&= E((f_{(X=x)}-E_{(f)})^2)\\
&= E(f^2_{(X=x)})-(E_{(f)})^2
\end{align}

分散は2乗しているので、平方根を求めれば、元の単位に戻るよ。

\begin{align}
\sigma 
&= \sqrt{Var(f)}\\
&= \sqrt{E((f_{(X=x)}-E_{(f)})^2)}\\
&= \sqrt{E(f^2_{(X=x)})-(E_{(f)})^2}

\end{align}

##共分散
2つのデータ系列の傾向
・正の値になると、似た傾向
・負の値になると、逆の傾向
・0は関係性に乏しく、1に近いほど相関性が強い

共分散 Cov(f, g)
期待値 $E_(f)$

\begin{align}
Cov(f, g)
&= E((f_{(X=x)}-E(f))(g_{(Y=y)}-E(g))\\
&= E(fg)-E(f)E(g)
\end{align}

##確率分布
###ベルヌーイ分布
コイントスのイメージ。表と裏で出る割合が等しくなくても扱える。

P(x|\mu)= \mu^x(1-\mu)^{1-x}

###マルチヌーイ(カテゴリカル)分布
さいころを転がすイメージ。各面の出る割合が等しくなくとも扱える

###二項分布
ベルヌーイ分布の多試行版(ベルヌーイ分布をn回繰り返したときの分布)

P(x|\lambda, n)= \frac{n!}{x!(n-x)!}\lambda^x(1-\lambda)^{n-x}

確率変数Xが確率 p で1, 確率qで0になる場合、確率分布の平均はnp, 分散はnpqになる。

###ガウス分布

N(x;\mu,\sigma^2)= \sqrt{\frac{1}{2\pi\sigma^2}}exp(-\frac{1}{2\sigma^2}(x-\mu)^2)

##情報理論
###自己情報量
・対数の底が2の時、単位はビット(bit)
・対数の底がネイピア数eの時、単位はナット(nat)

I(x) = -log(P(x)) = log(W(x))

###シャノンエントロピー
自己情報量の期待値

\begin{align}
H(x) &= E(I(x))\\
&= -E(log(P(x)))\\
&= -\sum(P(x)log(P(x)))
\end{align}

###カルバック・ライブラー ダイバージェンス
同じ事象・確率変数における異なる確率分布P,Qの違いを表す。
同じ確率分布だと 0 になる。
似ていないほど、大きな値になる。
KLダイバージェンス、KL情報量とも言う。
生成モデルで使うらしい。

\begin{align}
D_{KL}(p||q) &= E_{x〜p}[logP(x)-logQ(x)]\\
&= \sum_x P(x)(-log(Q(x))-(-log(P(x)))\\
&= \sum_x P(x)log\frac{P(x)}{Q(x)}
\end{align}

###交差エントロピー
・KLダイバージェンスの一部分を取り出したもの
・Qについての自己情報量をPの分布で平均している

\begin{align}
H(P,Q) &= H(P) + D_{KL}(P||Q)\\
&= -E_{x〜P}logQ(x)\\
&= -\sum_xP(x)logQ(x)
\end{align}

指揮の導き方

\begin{align}
D_{KL}(P||Q)&= \sum_x P(x)(-log(Q(x))-(-log(P(x)))\\

これを下記のように定義すると、\\
H(P,Q) &= P(x)(-log(Q(x))\\
H(P) &= P(x)(-log(P(x)))\\
なので、\\
H(P,Q) &= H(P) + D_{KL}(P||Q)
\end{align}
1
0
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0