#Level3.応用数学③
##3-3.情報理論
##・学習の目標
(1)自己情報量・シャノンエントロピーの定義を確認する。
(2)KLダイバージェンス・交差エントロピーの概要を知る。
###3-3-1.自己情報量
・対数の底が2のとき、単位はビット(bit)
・対数の底がネイピアの $e$ のとき、単位はナット(nat)
※natsとbitsでかじるものとかじられるもの。
・自己情報量:工学的、モールス信号では「どのくらい少ない情報で送れるか」と考えられた。
・情報の分かり易さを“比率”で把握している。
⇒10gの重さの違いが分かる人でも、10kgの物の上に10gを乗せても気が付かない。
I(x)= -log(P(x)) = log(W(x))
・$x$は、いろいろなイベント
・$W=\frac{1}{P}$と表せる。
logは逆数にすると符号が逆転する。(-をつける)
・$log(W(x))$で、底は$e$が省略されている。(底の変換)
(例)
情報の量によって用意するスイッチの数は、$log$を取ればわかる。
1~2個の情報: スイッチ1個(=$log_{2}2$)
1~4個の情報: スイッチ2個(=$log_{2}4$)
1~8個の情報: スイッチ3個(=$log_{2}8$)
###3-3-2.シャノンエントロピー
・微分エントロピーともいうが、微分しているわけじゃない。
・自己情報量の期待値
\begin{align}
H(x)&= E(I(x))\\
&= -E(log\:(P(x)))\\
&= -\sum(P(x)\:log(P(x)))
\end{align}
⇒ (確率 × 確率変数)の合計(=期待値)
###3-3-3.カルバック・ライブラー ダイバージェンス
・同じ事象・確率変数における異なる確率分布$P,Q$の違いを表す。
⇒コインを投げる。確率分布は$\frac{1}{2}$だが、イカサマのコインで確率が違うことが後で分かった等。
どれだけ違う分布だったのかを調べる。
・相対エントロピー
\begin{align}
D_{KL}(P||Q)&= E_{X~P}\begin{bmatrix}log \frac{P(x)}{Q(x)}\end{bmatrix}\\
&=E_{X~P}\begin{bmatrix}log P(x) - log Q(x)\end{bmatrix}
\end{align}
・D:ダイバージェンス、KL:カルバック・ライブラー
・$(P||Q)$は、この2つの差を見たいという意味。
\begin{align}
I(Q(x))-I(P(x))&= (-log(Q(x))) - (-log(P(x)))\\
&=log\frac{P(x)}{Q(x)}\\
\end{align}
E(f(x))= \sum_{x}P(x)f(x)
\begin{align}
D_{KL}(P||Q)&= \sum_{x}P(x)(-log(Q(x))) - (log(P(x)))\\
&=\sum_{x}P(x)log\frac{P(x)}{Q(x)}
\end{align}
⇒シャノンエントロピーと似ているのでは??
$D_{KL}(P||Q)とD_{KL}(Q||P)$は異なる値となる。
そのため、2つの差を距離としては扱えない。
###3-3-4.交差エントロピー
・KLダイバージェンスの一部分を取り出したもの。
・$Q$についての自己情報量を$P$の分布で平均している。
・事前に暗号化した表を用意しておくなどのデータ圧縮もある。
・機械学習及び最適化における損失関数の定義に使う。
(ロジスティック回帰モデルなど)
\begin{align}
H(P,Q)&= H(P) + D_{KL}(P||Q)\\
H(P,Q)&= -E_{X~P}\;\;log\;Q(x)\\
&= -\sum_{x}P(x)\:log\:Q(x)
\end{align}
・同じ事象・確率変数における異なる確率分布$P,Q$の違いを表す。