まとめ
-
1つ確率変数(Random Variable)の事象(Event)に対して定義
- 情報量(Information)
-
1つの確率変数に対して定義
- エントロピー(Entropy)
-
1つの確率変数の2つの分布(Distribution)に対して定義
- クロスエントロピー(Cross Entropy)
- 相対エントロピー(Relative Entropy)
- Jensen Shannon Divergence
-
2つの確率変数のそれぞれの事象に対して定義
- Pointwise Mutual Information
-
2つの確率変数に対して定義
- 相互情報量(Mutual Information)
- 条件つきエントロピー(Conditional Entropy)
離散確率変数の場合
- 情報量
- 確率変数を$X$、事象$x\in X$の分布を$p(x)$とする
- イベントが観測された時に得られる「びっくり量」
- 確率が低いほど情報量は大きい
I(x)= -\log_2 p(x)
- エントロピー
- どのくらいの不確定性を含むか?
- 情報量の期待値
- 「平均びっくり量」
\begin{aligned}
H(X) &=-\sum_{x} p(x) \log_2 p(x) \\
&=\sum_{x} p(x) I(x)
\end{aligned}
- クロス(交差)エントロピー(Cross entropy)
- $p(x)$, $q(x)$をそれぞれ$x\in X$の分布とする
H(p,q)=-\sum_{x} p(x) \log_2 q(x)
- 相対エントロピー(Relative entropy)
- Kullback-Leibler Divergence
- 情報利得(Information Gain)
\begin{aligned}
KL(p(x)||q(x)) &=\sum_{x} p(x) \log_2 \frac{p(x)}{q(x)} \\
&=-\sum_{x} p(x) \log_2 q(x) + \sum_{x} p(x) \log_2 p(x) \\
&=H(p,q)-H(p)
\end{aligned}
- Jensen Shannon Divergence
- KL Divergenceの対称バージョン
- $m(x)=\frac{1}{2}\left( p(x)+q(x) \right)$として
JS(p(x)||q(x)) = \frac{1}{2} \left( KL(p||m) + KL(q||m) \right)
- Pointwise Mutual Information
- 確率変数を$X$, $Y$、その事象を$x$, $y$、周辺分布を$p(x)$, $p(y)$、結合分布を$p(x,y)$とする。
\begin{aligned}
PMI(x;y) &= \log_2 \frac{p(x,y)}{p(x)p(y)} \\
&= I(x) + I(y) - I(x,y)
\end{aligned}
- 条件付きエントロピー(Conditional Entropy)
\begin{aligned}
H(Y|X) &=\sum_{x} p(x) H(Y|X=x) \\
&= \sum_{x,y}p(x)\left(-\frac{p(x,y)}{p(x)} \log_2 \frac{p(x,y)}{p(x)} \right) \\
&= -\sum_{x,y}\left( p(x,y) \log_2 \frac{p(x,y)}{p(x)} \right)
\end{aligned}
- 相互情報量(Mutual Information)
- 二つの確率変数がどのくらい情報を共有しているか。
- 一つの確率変数を観測した時のもう片方の確率変数のエントロピーの減少量
- PMIの期待値
\begin{aligned}
I(X;Y) &= KL(p(x,y)||p(x)q(y)) \\
&= \sum_x \sum_y p(x,y)\log_2 \frac{p(x,y)}{p(x)p(y)} \\
&= H(X) - H(X|Y) = H(Y) - H(Y|X)
\end{aligned}