LoginSignup
1
2

More than 3 years have passed since last update.

【ラビットチャレンジ】 応用数学 第三章 情報理論 レポート

Posted at

自己情報量

情報量はエントロピーとも言う.
事象の不確かさを測る尺度.噛み砕いて言うと情報の価値を示し,めったに起こらない事象だと大きくなる.
事象の起こる確率を$P(x)$,確率の逆数を$W(x)=\frac{1}{P(x)}$とする.
$$I(x) = -\log\bigl(P(x)\bigr)=\log\bigl(W(x)\bigr)$$

  • 対数の底が$2$のとき,単位はbit.(事象の数を表すために必要なスイッチの数)
  • 対数の底が$e$のとき,単位はnat.(微分積分など計算が容易.)

元の情報量に対する変化量の大きさという考え方.
$$\Delta I=\frac{\Delta w}{w}$$$$dI=\frac{dW}{W}$$両辺積分して,$$I=\log W$$

独立な事象がともに起こるという事象の情報量は,独立な事象の情報量の和になる.
$$I(x) = -\log\bigl(P_A(x)P_B(X)\bigr)=-\log\bigl(P_A(x)\bigr)-\log\bigl(P_B(x)\bigr)$$

物理のエントロピー $\Delta S$ は,エネルギー$E$ と 温度$T$を用いて,
$$\Delta E = T \Delta S$$

シャノンエントロピー(平均情報量)

自己情報量の期待値.

\begin{align}
H(x) &= E\bigl(I(x)\bigr)\\
&=-E\bigl(\log\bigl(P(x)\bigr)\bigr)\\
&=-\sum\bigl(P(x)\log\bigl(P(x)\bigr)\bigr)
\end{align}

カルバック・ライブラー ダイバージェンス

KLダイバージェンス,KL距離とも言われる.
同じ事象・確率変数における異なる確率分布$P$,$Q$の違いを表す.

\begin{align}
D_{KL}(P\Vert Q) &= \mathbb{E}_{x\sim P}\left[ \log \frac{P(x)}{Q(x)}\right] \\
&= \mathbb{E}_{x\sim P}\left[ \log P(x)- \log Q(x)\right]\\
&= \mathbb{E}_{x\sim P}\left[ I_Q-I_P\right]
\end{align}

$\mathbb{E}_{x\sim P}$は$P$で平均を取る(確率分布$P$における期待値)という意味.

$Q$は事前分布,$P$は事後分布.
新たな情報を知ることで確率変数に対してどの程度の情報を提供したかを示す.

確かに,$ \mathbb{E}_{x \sim P} \left[ I_Q - I_P \right]$は,事象の不確かさ(情報量)の減少を表す式である.

交差エントロピー

KLダイバージェンスの一部を取り出したもの.
具体的には,$D_{KL}(P\Vert Q)$に$H(P)$($P$の平均情報量)を足したもの.
$\mathbb{E}_{x \sim P} \log P(x)$の項が無くなる.

\begin{align}
H(P,Q) &=H(P)+D_{KL}(P\Vert Q)\\
H(P,Q) &= -\mathbb{E}_{x \sim P} \log Q(x)
\end{align}

$Q$についての自己情報量を$P$の分布で平均している(= 交差).
符号化方式が,真の確率分布$P$ではなく,ある所定の確率分布$Q$に基づいている場合に,とりうる複数の事象の中からひとつの事象を特定するために必要となるビット数の平均値を表す.

$H(P,Q)=H(P)=H(Q)$のとき,$P$と$Q$は一致.




DeepLearning ラビットチャレンジ

1
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
2