1.はじめに
今回は、情報理論についてまとます。
2.Summary
1)自己情報量:
$I(x)=-logP(x)$
2)エントロピー:
$H(x)=\sum_i -P(x_i)logP(x_i)$
3)エントロピー(2値):
$H(x)=-plog(p)-(1-p)log(1-p)$
4)KLダイバージェンス:
$D_{KL}(P||Q)=\sum_x P(x)log\frac{P(x)}{Q(x)}=\sum_x(p(x)logP(x)-p(x)logQ(x))$
2.自己情報量
発生確率の大小によって情報量は変わる。確率は掛け算で取り扱いが面倒なので、logを取り足し算に変換。確率が小さいほど情報量を大きくとしたいので、マイナスを付ける。つまり、
$I(x)=-logP(x)$
1〜40の目が出るルーレットにおいて、
情報A)1〜10の目が出る: $-log_2(\frac{1}{4})=log_24=2$
情報B)偶数の目が出る: $-log_2(\frac{1}{2})=log_22=1$
情報C)1〜10の目が出る かつ 偶数の目が出る: $-log_2(\frac{1}{4}*\frac{1}{2})=log_2(8)=3$
・情報Aは情報Bより発生確率が低いので、情報量が大きい。
・logを取っているので、情報C=情報A+情報Bが成り立つ。
3.エントロピー(平均情報量)
エントロピー(平均情報量)とは、分からなさ。
ルーレットの出目を教えて貰う場合のエントロピー(平均情報量)は、自分が既に知っている情報によって変化する。
自分が何も知らないときに、出目を教えて貰う場合の平均情報量:
*$H(x)=\sum_{i=1}^{40}-P(x_i)logP(x_i)=-\frac{1}{40}log(\frac{1}{40})40
=log_2{40}\fallingdotseq 5.32$
自分が情報Cを知っていたときに、出目を教えて貰う場合の平均情報量:
*$H(x)=\sum_{i=1}^5-P(x_i)logP(x_i)=-\frac{1}{5}log(\frac{1}{5})5
=log_25\fallingdotseq 2.32$
つまり、既に知っている情報がある場合は、平均情報量が小さい。
自分が何も知らないときに、出目が偶数か、奇数か教えて貰うときの平均情報量:
*$H(x)=\sum_{i=1}^{2}-P(x_i)logP(x_i)=-\frac{1}{2}log(\frac{1}{2})2
=log_2{2}=1$
自分が何も知らないときに、出目が2か2でないかを教えて貰う場合の平均情報量:
*$H(x)=\sum_{i=1}^{2}-P(x_i)logP(x_i)=-\frac{1}{40}log(\frac{1}{40})-\frac{39}{40}log(\frac{39}{40})40
=log_2{40}\fallingdotseq 0.17$
つまり、出目が2か2でないかという情報は、大体予想がつくことなので、平均情報量は小さい。
4.KLダイバージェンス
同じ確率変数xに対して異なる確率分布P(x)とQ(x)があるとき、カルバック・ライブラー・ダイバージェンス(KLダイバージェンス)を使って、この2つの分布にどれだけの差があるのか測ることが出来る。
$D_{KL}(P||Q)=E_{x\sim P}
\begin{bmatrix}
log\frac{P(x)}{Q(x)}
\end{bmatrix}=
E_{x\sim P}[logP(x)-logQ(x)]$
*$E_{x \sim P}[f(x)]$は、P(x)に関するf(x)の期待値
*但し、$D_{KL}(P||Q)\neq D_{KL}(Q||P)$である。