entropy

情報エントロピーまわりの自分用メモ

まじめに調べたら交差エントロピってかなりシンプルな定義だったので,すぐ思い出せるよう自分用メモ.
ちょっと雑多だけど勘弁してちょ.

情報量

情報エントロピの定義は Wikipedia あたりを参照.
情報量 - Wikipedia

ハートレーとシャノンを押さえておけば良いんじゃないでしょうか.

理解としては,こっちの方が理解し易い.
情報理論を視覚的に理解する (3/4) | POSTD

まとめ

  • 情報量 - Wikipedia

    • $H(X) = -\int p(x)\log p(x) dx$
    • 条件付きエントロピ

      H(X|Y) = - \int p(y) \int p(x|y) \log p(x|y) dx dy \\
      = E_Y[H(X|y)]\\
      = H(X,Y) - H(Y)
      
  • 交差エントロピー - Wikipedia

    • $H(p,q)$において$p(x)\ne0,q(x)=0$なる$x$が存在する時,発散する. 連続密度関数の理論式ではあまり問題にならないけど,実データをそのまま適用しようとすると途端に困る.
    • 一般的な解決方法は知らないけど,もし自分が解決するなら経験分布関数を平滑化してから微分するか,正規分布で近似するか,って感じか.
      • でも正規分布なんて仮定しちゃうと交差エントロピーの式なんて持ち出さなくても平均と分散から欲しい変量を直接計算する方法がありそうな気もする.
    H(p,q) = -\int p(x)\log q(x) dx\\
    H(q,p) = -\int q(x)\log p(x) dx\\
    H(p,q) \ne H(q,p)
    
  • カルバック・ライブラー情報量 - Wikipedia

    • $D_{KL}(p||q)$(下定義)は$p=q$の時に最小値0を取る.
    • この時,交差エントロピは$H(p,q)=H_p(X)$($p$を$X$の生起確率とした時のエントロピ)で最小値を取る.
    • このことから,$p$を教師分布,$q$を学習している分布とした時の最適化問題を,交差エントロピ$H(p,q)$をもって解くことができる.
      • $H(q,p)$は最小化されない(らしい).
      • 交差エントロピと同じく発散の問題あり.
      D_{KL}(p||q) = -\int p(x)\log p(x) + \int p(x)\log q(x) \\
      = H_p(X) - H(p,q)
    
  • 結合エントロピー - Wikipedia

    • $H(X,Y) = - \int p(x,y) \log p(x,y) dxdy$
    • 交差エントロピと同じ表記なので注意が必要.書き分けるべきだよな…
    • 結合エントロピは対称性がある(結合確率から計算するのだから当たりまえ)
  • 相互情報量 - Wikipedia

    • 最初,交差エントロピと相互情報量との間で混乱した.
    I(X,Y) = H(X) + H(Y) - H(X,Y) \\
    = H(X) - H(X|Y) \\
    = H(Y) - H(Y|X)