概要
本記事は「JDLA E資格」の取得に必要なJDLA認定プログラムのひとつであるラビットチャレンジの受講レポートとして投稿したものです。
E資格について
https://www.jdla.org/certificate/engineer/
目次
導入
自己情報量
シャノンエントロピー
[カルバックライブラー ダイバージェンス](#カルバックライブラー ダイバージェンス)
交差エントロピー
導入
10から11に増えた時も、1から2に増えた時も、増加量$Δw = 1$は同じだが
直観的な違いのわかり易さは違う。
そこで増加量$Δw$ではなく増加率$Δw/w$を考える。
自己情報量
$1/w$を積分した$\log w$を考える。
I(x) = - \log \bigl( P(x) \bigr) = \log \bigl( W(x) \bigr)
・対数の底が2のとき、単位はビット(bit)
・対数の底がネイピア数eのとき、単位はナット(nat)
・$P(x)$と$W(x)$は逆数の関係
・情報の珍しさのようなもの(確率の低いことががわかった方が情報量が多い)
シャノンエントロピー
・自己情報量の期待値
・微分エントロピーともいうが、微分しているわけではない(differential)
\begin{align}
H(x) &= E \bigl( I(x) \bigr) \\
&= - E \Bigl( \log \bigl( P(x) \bigr) \Bigr) \\
&= - \sum \Bigl( P(x) \log \bigl( P(x) \bigr) \Bigr)
\end{align}
カルバック・ライブラー ダイバージェンス
・同じ事象・確率変数における異なる確率分布$P,Q$の違いを表す
・異なる確率分布の性質が近いか遠いかという距離のようなもの
\begin{align}
D_{KL} &= \mathbb{E}_{x~P} \Biggl[ \log \frac{P(x)}{Q(x)} \Biggr] \\
&= \mathbb{E}_{x~P} \bigl[ \log P(x) - \log Q(x) \bigr] \\
&= \sum_{x} P(x) \biggl( - \log \bigl( Q(x) \bigr) - \Bigl( - \log \bigl( P(x) \bigr) \Bigr) \biggr) \\
&= \sum_{x} P(x) \log \frac{P(x)}{Q(x)}
\end{align}
交差エントロピー
\begin{align}
H(P, Q) &= - \mathbb{E}_{x~P} \log Q(x) \\
&= - \sum_{x} P(x) \log Q(x)
\end{align}