相互情報量とエントロピーの関係
(Wikipedia「相互情報量」の図)
エントロピーは自己情報量の期待値である
シャノンはエントロピーを次のように定めました。
$$
H(X) = - \sum_{x \in X} P(x) \log P(x)
$$
$P(x)$は事象$x \in X$が起きる確率です。エントロピーは事象$x$について定められる次の量の期待値になっています。
$$
I(x) = - \log P(x)
$$
これを自己情報量といいます。
自己情報量が対数であること、そして、負の対数であることにはそれぞれ理由があります。
対数は積を和に読み替える
事象$x$, $y$が互いに独立であれば、それぞれが同時に起きる確率はそれぞれの確率を掛け合わせたものになります。つまり、
$$
P(x,y) = P(x)P(y)
$$
が成り立ちます。対数は積の法則を和の法則に読み替えます。つまり、自己情報量で言えば、
$$
I(x, y) = I(x) + I(y)
$$
が成り立ちます。
確率の逆数は拡張された場合の数である
ボルツマンはエントロピー$S$を次のように定めました(係数は省いています)。
$$
S = \log N
$$
この定義では負の対数ではありません。ただし、対数を取っているのが確率ではなく場合の数です。
一様分布であれば、すべての事象$x$について確率$P(x)$は次のように表されます。
$$
P(x) = \frac{1}{N}
$$
このとき、自己情報量は$I(x) = \log N$であり、エントロピーも$H(X) = \log N$です。つまり、一様分布の場合はボルツマンのエントロピーはシャノンのエントロピーに等しい。
逆にいえば確率の逆数は拡張された場合の数になっています。拡張された場合の数に対数を取ったものが自己情報量であり、その期待値がエントロピーです。
エントロピーは不確かさを表す
事象全体$X = \{x_1, x_2, ..., x_N\}$を固定したとき以下が成り立ちます。
$$
0 ≤ H(X) ≤ \log N
$$
このことは、エントロピーは一様分布のとき最大となることを表します。
エントロピーがしばしば不確かさを表すと言われるのはこのためです。
たとえば、もっとも不確かではない分布を考えましょう。すなわち、ある事象 $x \in X$ が起きることが確定している分布です。このとき、$P(x) = 1$であるため$H(X) = 0$となります。
つまり、上記の不等式は、エントロピーはある事象の確率が$1$のとき最小となることを表します。
条件付きの確率
どの事象$y \in Y$が事前に起きたかによって、どの事象$x \in X$が事後に起きるが定まるようなとき、この確率を$P(x|y)$で表します。これを事後確率といいます。また、$P(y)$は事前確率といいます。
$P(x|y)$は条件付き確率ともいいます。つまり、事象$x \in X$が起きる確率はどの事象$y \in Y$が起きたかという条件によって定まる、ということです。
条件付き確率は規格化条件を満たす
条件付き確率は事象 $x \in X$ についての確率です。事象 $y \in Y$ はあくまで確率分布を定めるための条件です。そのため、規格化条件は、
$$
\sum_{x \in X} P(x | y) = 1
$$
となります。つまり、$x \in X$全体で確率の和が$1$になります。
例)通信の条件付き確率
$X = \{0, 1 \}$を受信、$Y = \{0, 1 \}$を送信とするような通信を考えます。ただし、この通信には誤差があります。$0 ≤ ε ≤ 1$の確率で送信と受信が誤るとしましょう。
何を受信するかは何が送信されたかによって確率は変わります。このときの事後確率あるいは条件付き確率は、
P(x|y) =
\begin{cases}
ε & x ≠ y \\
1-ε & x = y \\
\end{cases}
となります。
条件付きエントロピー
事後確率分布は事前事象$y \in Y$ごとに定まります。事前事象が$y \in Y$のときのエントロピーを$H(X|y)$とすると次のようになります。
$$
H(X|y) = - \sum_{x \in X} P(x|y) \log P(x|y)
$$
これはエントロピーの定義に当てはめただけです。
$H(X|y)$を$y \in Y$について期待値を取ります。これを$H(X|Y)$とすると、
$$
H(X|Y) = - \sum_{x \in X,y \in Y} P(x|y) P(y) \log P(x|y)
$$
が成り立ちます。これを条件付きエントロピーと呼びます。
同時確率
$P(x|y)P(y)$は事後確率と事前確率の積になっています。これを同時確率といい、$P(x, y)$で表します。つまり、
$$
P(x, y) = P(x|y) P(y)
$$
です。同時確率は事前確率と事後確率の積で表されます。自己情報量$I(x|y)$によって、
$$
I(x, y) = I(x|y) + I(y)
$$
と和に書き換えることができます。また、条件付きエントロピーは同時確率により次のようにも表すことができます。
$$
H(X|Y) = - \sum_{x \in X,y \in Y} P(x, y) \log P(x|y)
$$
同時確率の周辺化
同時確率を$x \in X$について足し合わせることで$P(y)$を求めることができます。
\begin{array}{rcl}
\sum_{x \in X} P(x, y) &=& \sum_{x \in X} P(x|y)P(y) \\
&=& P(y)
\end{array}
1行目の等式は同時確率を事前事後に展開することで得られます。2行目は事後確率についての規格化条件($\sum_{x \in X}P(x|y) = 1$)により得られます。
これを周辺化といいます。そのため、同時確率が与えられれば周辺化により事前確率を得ることができ、そして、同時確率と事前事後確率の関係から事後確率も得られます。
同時確率の規格化条件
同時確率は積事象 $(x, y) \in X × Y$ についての確率です。そのため、規格化条件は$(x, y) \in X × Y$全体で考える必要があります。
\begin{array}{rcl}
\sum_{x \in X,y \in Y} P(x, y) &=& \sum_{y \in Y}P(y) \\
&=& 1
\end{array}
1行目の等式は周辺化、2行目の等式は事前確率についての規格化条件($\sum_{y \in Y}P(y) = 1$)によって得られます。
同時確率のエントロピー
同時確率のエントロピー$H(X,Y)$は定義に当てはめると次のようになります。
$$
H(X, Y) = - \sum_{x \in X,y \in Y} P(x, y) \log P(x, y)
$$
事前確率のエントロピー
事前確率のエントロピーは定義通り、
$$
H(Y) = - \sum_{y \in Y} P(y) \log P(y)
$$
ですが、同時確率の周辺化により次のように書くことができます。
$$
H(Y) = - \sum_{x \in X,y \in Y} P(x, y) \log P(y)
$$
同時確率と事前確率、事後確率のエントロピーの関係
以下の三つの等式が得られました。
\begin{array}{rcl}
H(X, Y) &=& - \sum_{x \in X,y \in Y} P(x, y) \log P(x, y) \\
H(X|Y) &=& - \sum_{x \in X,y \in Y} P(x, y) \log P(x|y) \\
H(Y) &=& - \sum_{x \in X,y \in Y} P(x, y) \log P(y)
\end{array}
この等式により以下の積の関係
$$
P(x, y) = P(x|y) P(y)
$$
を以下の和の関係に書き換えられます。
$$
H(X, Y) = H(X|Y) + H(Y)
$$
この等式は冒頭の図の欠けた赤い円($H(X|Y)$)とそれに重なる青い円$H(Y)$を合わせた面積が全体$H(X,Y)$となっていることで表されています。
事後確率を無条件化する
事後事象$x \in X$について事前事象を考えずに$P(x)$を考えるためには、事後確率について期待値を取って
$$
P(x) = \sum_{y \in Y}P(y)P(x|y)
$$
とするか、同時確率を$x \in X$について周辺化して
$$
P(x) = \sum_{y \in Y}P(x, y)
$$
の二つが考えられますが、どちらも積の関係により同じ値になります。この通り、同時確率から見て$X$と$Y$をどちらを事前もしくは事後とするかは周辺化と期待値が整合しているため任意です。
無条件エントロピーと条件付きエントロピーの関係
無条件化した$X$のエントロピー$H(X)$は、
\begin{array}{rcl}
H(X) &=& - \sum_{x \in X}P(x) \log P(x) \\
&=& - \sum_{x \in X,y \in Y}P(x, y) \log P(x)
\end{array}
ここで$H(X) - H(X | Y)$を考えます。つまり、
\begin{array}{rcl}
H(X) - H(X|Y) &=& - \sum_{x \in X,y \in Y}P(x, y) \log P(x)/P(x|y) \\
&=& - \sum_{x \in X,y \in Y}P(x, y) \log P(x)P(y)/P(x, y)
\end{array}
1行目の等式は対数によって差を商に書き換えている。そして、2行目は対数の中の以下の分数
$$
\frac{P(x)}{P(x|y)}
$$
の分母分子に$P(y)$を掛けて
$$
\frac{P(x)P(y)}{P(x|y)P(y)} = \frac{P(x)P(y)}{P(x, y)}
$$
を得ている。
ここで対数の性質$- \log a ≥ 1 - a$により以下が成り立つ(この性質は自然対数に限りますが、底が1より大きければ結論は変わりません)。
$$
-\log \frac{P(x)P(y)}{P(x, y)} ≥ 1 - \frac{P(x)P(y)}{P(x, y)}
$$
両辺は積事象$(x, y) \in X×Y$について与えられる確率的な量になります。左辺は自己情報量$I(x|y) = - \log P(x|y)$によって、
$$
I(x) - I(x|y)
$$
です。この期待値を取ると$H(X) - H(X|Y)$になります。
右辺の期待値は以下の通り$0$になります。
\begin{array}{rcl}
&& \sum_{x \in X, y \in Y} P(x,y) (1 - P(x)P(y)/P(x, y)) \\
&=& \sum_{x \in X, y \in Y}(P(x, y) - P(x)P(y)) \\
&=& \sum_{x \in X, y \in Y}P(x, y) - \sum_{x \in X}P(x) \sum_{y \in Y}P(y) \\
&=& 1 - 1×1 \\
&=& 0
\end{array}
上記は$P(x, y), P(x), P(y)$についての規格化条件によって得られます。よって、
$$
H(X) - H(X | Y) ≥ 0
$$
あるいは
$$
H(X) ≥ H(X | Y)
$$
が得られます。
この不等式は冒頭の図の赤い円全体の面積($H(X)$)より欠けた赤い円の面積($H(X|Y)$)が小さいことで表されています。
相互情報量
また、$H(X) - H(X | Y)$は$P(x), P(y), P(x, y)$で表したとき$x, y$について対称な式で表されるのでこれを
$$
I(X; Y) = - \sum_{x \in X,y \in Y}P(x, y) \log \frac{P(x)P(y)}{P(x, y)}
$$
として、相互情報量と呼びます。
$H(X) - H(X|Y) ≥ 0$より相互情報量は非負です。つまり、
$$
I(X; Y) ≥ 0
$$
が成り立ちます。
例)通信の相互情報量
再び、$X = \{0, 1 \}$を受信、$Y = \{0, 1 \} $を送信誤差 $0 ≤ ε ≤ 1$となる以下のような通信
P(x|y) =
\begin{cases}
ε & x ≠ y\\
1-ε & x = y\\
\end{cases}
を考えましょう。ただし、送信は一様分布つまり$P(y) = 1/2$とします。
このときエントロピー$H(X|y)$は、
$$
H(X|y) = -ε \log ε - (1 - ε) \log (1 - ε)
$$
上記の右辺を$h(ε)$とします。つまり、
$$
h(ε) = -ε \log ε - (1 - ε) \log (1 - ε)
$$
と定めます。これをエントロピー関数といいます。条件付きエントロピーも同様に$H(X|Y) = h(ε)$になります。
$h$は$ε = 1/2$のとき最大値$h(1/2) = \log 2$となります。
$Y$は一様分布に従うので$H(Y) = \log 2$となります。また、$X$についても誤差が偏りなく現れるため$H(X) = \log 2$となります。
$ε = 0$のときつねに$x = y$となるため条件付きエントロピーは$H(X|Y) = 0$であり、相互情報量は最大値$I(X;Y) = \log 2$になります。これは$y \in Y$によって$x \in X$が決定論的に定まるためです。
$ε = 1/2$のとき$P(x|y) = 1/2$となります。$x = y$も$x ≠ y$もどちらも等確率で起きるため、$H(X|Y) = H(X) = 1/2$です。また、このとき相互情報量$I(X;Y) = 0$です。
$ε = 1$のときつねに$x ≠ y$となります。そのため、$H(X|Y) = 0$となり、相互情報量は最大値$I(X;Y) = \log 2$となります。
劣加法性
$H(X) ≥ H(X | Y)$と$H(X,Y) = H(X|Y) + H(Y)$より、
$$
H(X, Y) ≤ H(X) + H(Y)
$$
となります。この性質は列加法性と呼ばれます。等号が成立するのは$H(X) = H(X|Y)$のとき、つまり$X$と$Y$が互いに独立のときです。
この性質は
$$
P(x, y) = P(x | y)P(y)
$$
が$X$と$Y$が互いに独立のとき$P(x|y) = P(x)$により、
$$
P(x, y) = P(x)P(y)
$$
と書けることに対応しています。
KL情報量
相互情報量をさらに拡張した量としてKL情報量(カルバック・ライブラー情報量)があります。
$$
\text{KL}(P, Q) = - \sum_{x \in X} P(x) \log \frac{Q(x)}{P(x)}
$$
相互情報量は$(x, y) \in X × Y$上に定められた$P(x, y)$と$Q(x, y) = P(x)P(y)$を比べたKL情報量になります。
$\text{KL}(P, Q)$について、$H(X) - H(X|Y) ≧ 0$と同様に以下が成り立ちます。
$$
\text{KL}(P, Q) ≥ 0
$$
証明も$H(X) - H(X|Y) ≧ 0$のときと同様に対数の性質$- \log a ≥ 1 - a$によって得られます。
また、$x \in X$上の任意の確率分布$P(X)$と一様分布$Q(x) = 1/N$を比べましょう。このときKL情報量は、
$$
\text{KL}(P, Q) = \log N - H(X)
$$
となります。ただし、$H(X)$は$P(x)$により定めたエントロピーです。このように対数の外に出せたのは一様分布の確率が定数だからです。よってエントロピーは一様分布で最大になることを表す
$$
H(X) ≤ \log N
$$
が成り立ちます。
補足
情報量が確率の逆数の対数である説明でしばしば情報量とは「希少性」であるという説明があります。個人的にはこの説明はむしろ混乱しました。混乱を解消したく考えたのが拡張された場合の数です。
一様分布に限れば、情報量あるいはエントロピーは場合の数の対数です。ビットやバイトとしてすでに親しみのある情報量ですが、確率の逆数としてではなく場合の数として直感していると思います。つまり、1ビットは2通りの値を表すのに必要な情報量、1バイトは256通りの値を表すのに必要な情報量である、と。
エントロピーの最大が$\log N$ということは拡張された場合の数は$N$より小さくなります。このことは必要な情報量を節約できることを表します。たとえば、ユニコードでエンコーディングされたテキストでもアスキー文字しか現れていなければアスキーコードでエンコーディングできます。
エントロピーが期待値を取っていることも重要です。たとえば、
$$
H(X) ≤ \log N
$$
は成り立ちますが、
$$
I(x) ≤ \log N
$$
は成り立たないことがあります。というのは、確率が$P(x) ≤ 1/N$となることはあるからです。このように、個々の確率を考えると成り立たないが期待値を取ると成り立つ、ということがあります。