More than 3 years have passed since last update.

JDLA_E資格の情報理論

Last updated at 2021-05-06Posted at 2021-05-05

自己情報量

情報量は以下のように表現できる。

情報量とは、希少であればあるほど大きくなる。

自己情報量 I(x) = -log (P(x)) = log(W(x))\\
自己情報量 I(x) = -log_2 (P(x)) = log_2(W(x)) [bit]\\
自己情報量 I(x) = -log_e (P(x)) = log_e(W(x)) [nat]\\

シャノンエントロピー

自己情報量の期待値を表すものがシャノンエントロピーという。
機械学習の際に、シャノンエントロピーが最大になるような値をさがさせるための誤差関数として使うことも可能。

シャノンエントロピーH(x) = E(I(x))\\
=-E(log(P(x))\\
=- \sum ( P(x) log(P(x))) \\

カルバック・ライブラー　ダイバージェンス

同じ事象、同じ確率変数のはずなのに、実際には違う確率分布を表す２つの事象P、Qがあったとする。この違いを表す手法が、カルバック・ライブラー　ダイバージェンスである。

ダイバージェンスとは、距離という意味あいである。二つの事象の性質としての違いを距離のイメージとしている。

事象P：佐藤さんが１０回コイントスした時の結果（表か裏）
事象Q：田中さんが１０回コイントスした時の結果（何故か毎回表）

D_{KL} (P || Q) = E_{x～P} \Biggl[ log \frac{P(x)}{Q(x)}  \Biggr] \\
=E_{x～P} \biggl[ log P(x) - log Q(x) \biggr] \\
= \sum_x P(x)  ( -log(Q(x))) - ( -log(P(x))) \\
= \sum_x P(x) log \frac{P(x)}{Q(x)}

シャノンエントロピーの形に似ている。

　交差エントロピー

交差エントロピーは、教師有学習の際に真の確率分布と推定した確率分布の間の誤差関数として使われる。カルバック・ライブラー　ダイバージェンスを利用して、２つの事象の距離が短ければ、上手く推定が出来ているという見方になる。

H(P,Q) = H(P) + D_{KL} (P||Q) \\
H(P,Q) = -E_{x～P} log Q(x) = - \sum_x P(x) log Q(x) \\
※H(P) はPのシャノンエントロピー

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

JDLA_E資格の情報理論

自己情報量

シャノンエントロピー

カルバック・ライブラー ダイバージェンス

交差エントロピー

カルバック・ライブラー　ダイバージェンス

　交差エントロピー