今回は情報理論について。
目次
機械学習の情報
エントロピー(平均情報量)
KLダイバージェンス
機械学習における情報
数式で表すと情報$I(x)$は
$$
I(x)=-log(x)
$$
と書きます。起こりやすい事象ほど情報は少なく、起こりにくいほど情報が多いと覚えてください。

グラフにするとこう。
logの底によって単位が変わり
・e:ナット単位
・2:ビット(シャノン)単位
です。
エントロピー(平均情報量)
情報源がどれくらい情報を出しているかの尺度です。
出している情報があいまいなほどエントロピーが高く、確率が定まるほどエントロピーが下がります。
$$
H=-\sum_x P(x)logP(x)
$$
式を見てても実感がわかないと思うので例題を解いて確認しましょう。
例題
コインAは表と裏が同じ確率で出ており、コインBは表は$\frac{1}{4}$、裏は$\frac{3}{4}$で出る。
コインAのエントロピー$H_A$、コインBのエントロピー$H_B$を求めよ、単位はビット単位を使い、$log_23=1.5$とする。
まずつづいて$H_A$から
\begin{align}
H_A &=-\sum_x P(x)log_2P(x)\\
&=-\frac{1}{2}log_2\frac{1}{2}-\frac{1}{2}log_2\frac{1}{2}\\
&=-log_2\frac{1}{2}\\
&=1
\end{align}
つづいて$H_B$
\begin{align}
H_B &=-\sum_x P(x)log_2P(x)\\
&=-\frac{1}{4}log_2\frac{1}{4}-\frac{3}{4}log_2\frac{3}{4}\\
&=\frac{1}{2}-\frac{3}{4}(log_23-log_24)\\
&=\frac{1}{2}-\frac{3}{4}(-0.5)\\
&=0.5+0.375\\
&=0.875
\end{align}
事象(コインの表裏など)が等確率で出現しているとき、エントロピーは最大となります。
KLダイバージェンス
2つの確率分布の差を表しています。
T=SNE、VMAPがこの手法のもととなっています。
\begin{align}
D_{KL}(P||Q)&=-\sum_x P(x)log \frac{P(x)}{Q(x)}\\
&=-\sum_x P(x)(logP(x)-logQ(x))
\end{align}
つまり
$P(x),Q(x)$が完全に一致していたら0になり、分布が異なるほど値が大きくなります。
ここまで。