自己情報量
情報量は以下のように表現できる。
情報量とは、希少であればあるほど大きくなる。
自己情報量 I(x) = -log (P(x)) = log(W(x))\\
自己情報量 I(x) = -log_2 (P(x)) = log_2(W(x)) [bit]\\
自己情報量 I(x) = -log_e (P(x)) = log_e(W(x)) [nat]\\
シャノンエントロピー
自己情報量の期待値を表すものがシャノンエントロピーという。
機械学習の際に、シャノンエントロピーが最大になるような値をさがさせるための誤差関数として使うことも可能。
シャノンエントロピーH(x) = E(I(x))\\
=-E(log(P(x))\\
=- \sum ( P(x) log(P(x))) \\
カルバック・ライブラー ダイバージェンス
同じ事象、同じ確率変数のはずなのに、実際には違う確率分布を表す2つの事象P、Qがあったとする。この違いを表す手法が、カルバック・ライブラー ダイバージェンスである。
ダイバージェンスとは、距離という意味あいである。二つの事象の性質としての違いを距離のイメージとしている。
事象P:佐藤さんが10回コイントスした時の結果(表か裏)
事象Q:田中さんが10回コイントスした時の結果(何故か毎回表)
D_{KL} (P || Q) = E_{x~P} \Biggl[ log \frac{P(x)}{Q(x)} \Biggr] \\
=E_{x~P} \biggl[ log P(x) - log Q(x) \biggr] \\
= \sum_x P(x) ( -log(Q(x))) - ( -log(P(x))) \\
= \sum_x P(x) log \frac{P(x)}{Q(x)}
シャノンエントロピーの形に似ている。
交差エントロピー
交差エントロピーは、教師有学習の際に真の確率分布と推定した確率分布の間の誤差関数として使われる。カルバック・ライブラー ダイバージェンスを利用して、2つの事象の距離が短ければ、上手く推定が出来ているという見方になる。
H(P,Q) = H(P) + D_{KL} (P||Q) \\
H(P,Q) = -E_{x~P} log Q(x) = - \sum_x P(x) log Q(x) \\
※H(P) はPのシャノンエントロピー