この記事は個人的なお勉強用のメモです。
情報量・エントロピーの一覧
記号 | XX情報量 | YYエントロピー等 |
---|---|---|
$I(E)$ | 自己情報量 選択情報量 |
自己エントロピー |
$H(P)$ | 平均情報量 シャノン情報量 |
エントロピー シャノンエントロピー |
$H(X,Y)$ | 結合エントロピー | |
$H(X|Y)$ | 条件付きエントロピー | |
$I(X,Y)$ | 相互情報量 | |
$D_{KL}(P||Q)$ | カルバック・ライブラー情報量 | 相対エントロピー カルバック・ライブラー・ダイバージェンス KLダイバージェンス |
$H(P,Q)$ | 交差エントロピー クロスエントロピー |
自己情報量
選択情報量や自己エントロピーとも。
I(x)=-\log(P(x))=\log(W(x))
$I(x)$:$x$ の場合の自己情報量
$P(x)$:$x$ が起こる確率
$W(x)$:$x$ のときの事象の数
起こる確率が低ければ低いほど、自己情報量は多い。
(珍しいほど価値がある、というイメージ)
対数の低が $2$ の場合、単位はビット(bit)。
対数の低が $e$ の場合、単位は nat。
(ビットの方がよく使われるらしい)
$-\log(P(x))$ の式の先頭がマイナスになっているが問題ない。
この関数は右肩下がりで $x$ 軸 $P(x)=1$ のときに $0$ になるが、
$P(x)$ は確率なので、$ 0\leq P(x) \leq 1$ である。
つまり、$-\log(P(x))$ の値は必ず $0$ 以上である。
シャノンエントロピー
平均情報量やエントロピーとも。
自己情報量の期待値(平均)
\begin{align}
H(x)&=E\bigl(I(x)\bigr)\\
&=-E\bigl(\log(P(x))\bigr)\\
&=-\sum P(x)\log{P(x)}
\end{align}
カルバック・ライブラー ダイバージェンス
カルバック・ライブラー情報量やKLダイバージェンスとも。
同じ事象・確率における、異なる確率変数 $P$ と $Q$ の違いを表す。
イメージとしては $P$ と $Q$ の距離に近いが、
距離の定義を満たしていないので、距離とは呼ばない。
\begin{align}
D_{KL}(P||Q)&=E_{x~P} \Bigg[\log \frac{P(x)}{Q(x)}\Bigg]\\
&=E_{x~P} \Bigg[ \log P(x) - \log Q(x) \Bigg]\\
&=\sum_x P(x)\Bigl(-\log (Q(x)) -(-\log(P(x))\Bigr)\\
&=\sum_x P(x)\log \frac{P(x)}{Q(x)}
\end{align}
$Q$:予測の分布
$P$:正解の分布
この式は、シャノンエントロピーの式に似ている。
(シャノンエントロピーは $P(x)$ だが、KLダイバージェンスは $\frac{P(x)}{Q(x)}$)
交差エントロピー
クロスエントロピーとも。
KLダイバージェンスの一部を取り出したもの。
$Q$ についての自己情報量を $P$ の分布で平均している。
\begin{align}
H(P,Q)&=H(P)-D_{KL}(P||Q)\\
&=-E_{x~P}\log Q(x)\\
&=-\sum_x P(x)\log Q(x)
\end{align}
これもシャノンエントロピーに似ている。
(シャノンエントロピーは $P(x)$ だが、交差エントロピーは $Q(x)$)
交差エントロピーは2クラス分類の誤差関数(損失関数)に使われる。
$P$ と $Q$ が似ていると交差エントロピーは小さい。($P=Q$ のときに最小値 $H(P)$、KLダイバージェンスは $0$)
$P$ と $Q$ が似ていないと交差エントロピーは大きい。
演習問題
問4.1.1
\begin{align}
-log_2(P(x))&=-log_2\frac{1}{2}\\
&=1 (bit)
\end{align}
問4.1.2
\begin{align}
-log_2(P(x))&=-log_2\frac{1}{4}\\
&=2 (bit)
\end{align}
問4.1.3
二項分布の式より、
\begin{align}
P&=\frac{n!}{x!(n-x)!}\mu^x(1-\mu)^{n-x}\\
&=\frac{n!}{1!(n-1)!}\biggl(\frac{1}{2}\biggr)^x\biggl(1-\frac{1}{2}\biggr)^{n-1}\\
&=\frac{n}{2^n}
\end{align}
\begin{align}
情報量 I&=-\log_2P\\
&=-\log_2 \frac{n}{2^n}\\
&=-\Bigl(\log_2 n - \log_2 2^n\Bigr)\\
&=-log_2 n + n \, (bit)
\end{align}
問6.1
\begin{align}
\log(X)&=\log(AB)\\
&=\log(A) + \log(B)
\end{align}
問6.2
\begin{align}
\log(X)&=\log\biggl(\frac{A}{B}\biggr)\\
&=\log(A)-\log(B)
\end{align}
問6.3
\begin{align}
\log(X)&=\log(x_1 x_2 x_3 x_4)\\
&=\log(x_1) + \log(x_2) + \log(x_3) + \log(x_4)\\
&=\sum_{k=1}^4 \log(x_k)
\end{align}
問7.5
シャノンエントロピー
H(x)=-\sum P(x)\log\bigl(P(x)\bigr)
修了テスト~練習問題~
問題2(交差エントロピーの定義)
-\sum_k t_k \log y_k\\
(交差エントロピー-\sum_x P(x) \log Q(x)の変数が違うだけ)
$y$:モデルの推定値
$t$:正解ラベル
問題3(交差エントロピーの計算)
仮説 $Q$ :$[0.8, 0.2]$
正解 $P$ :$[1.0, 0.0]$
\begin{align}
交差エントロピー
&=-\sum_x P(x) \log Q(x)\\
&= -(1.0 \times \log 0.8 + 0.0 \times \log 0.2)\\
&= -\log 0.8\\
&= 0.09
\end{align}
問題47(エントロピー)
ある事象に対する情報量の期待値を、エントロピーという。
問題48(KLダイバージェンス)
KLダイバージェンス
- 二つの確率分布の擬距離を定量化する指標
- $D(Q||P) = \int q(x) \log \frac{q(x)}{p(x)} dx$
- 非負の関数
問題49(KLダイバージェンス)
KLダイバージェンスの式を変形
\begin{align}
D(P||Q)
&=\int q(x) \log \frac{q(x)}{p(x)} \\
&=\int q(x) \log q(x)-\int q(x) \log p(x)
\end{align}
$q(x)$:真の分布
$p(x)$:推定されたモデルの分布
第2項のみ用いる。
第1項を用いない理由は、$q(x)$ は真の分布であることから、第1項は一定であるため。
(第2項のみであれば、これが意味することは交差エントロピーなのでは)
問題50(JSダイバージェンス)
二つの確率分布の順番を入れ替えると式の値が変わるのは、KLダイバージェンス。
式の値が変わらないのは、JSダイバージェンス。
参考
JSD=\frac{D(P||Q)}{2}+\frac{D(Q||P)}{2}
JSダイバージェンスは対称性がある。
問題51(情報量)
確率分布表
確率変数 $X$ | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
確率 $P$ | 0.5 | 0.1 | 0.1 | 0.1 | 0.1 | 0.1 |
\begin{align}
4の場合の情報量&=-\log \Bigl( P(x) \Bigr)\\
&=-\log_2 0.1
\end{align}
問題52(シャノンエントロピー)
確率変数 $X$ に対するエントロピー、
つまり、シャノンエントロピー(エントロピーの期待値)を問うている。
(問題文に $X_1$ と書いているが、これはサイコロの目が $1$ の場合の確率変数という意味ではない。)
\begin{align}
シャノンエントロピー
&=-\sum_x \biggl(p(x)\log P(x)\biggr)\\
&=-(0.5 \times \log_2 0.5 + 0.1 \times \log_2 0.1 \times 5)\\
&=-0.5 \times \log_2 0.5 - 0.1 \times \log_2 0.1 \times 5
\end{align}
問題53(結合エントロピー)
結合エントロピー
紛らわしいことに、結合エントロピーと交差エントロピーのどちらも $H(X,Y)$ で表す。
\begin{align}
H(X,Y)&=-\sum_{i=1}^{M_X} \sum_{j=1}^{M_Y} P(x_i, y_j) \log P(x_i, y_j) \quad (離散型の場合)\\
H(X,Y)&=\int P(x, y) \log P(x, y) dx dy\quad (連続型の場合)
\end{align}
本問は離散型。
H(X,Y)=-\bigl(0.25 * \log(0.25) * 2 + (0.01 * \log(0.01) + 0.09 * \log(0.09)) * 5 \bigr)
問題54(相互情報量)
相互情報量の式
I(X_1, Y)=H(X_1)-H(X_1|Y)
$I(X_1, Y)$:相互情報量
$H(X_1)$:$X_1$ のエントロピー
$H(X_1|Y)$:$Y$ がわかった上での $X_1$ のエントロピー
式そのものは条件付き確率に近い。
問題72(自己情報量)
自己情報量の式
I(A)=\log P(A)
問題73(エントロピー)
$H(X)$ の値とは、$X$ のエントロピーのこと。
まず、$X$ の事象ごとの確率を求める。
\begin{align}
P(X=1)&=\frac{1}{8}+\frac{1}{4}+\frac{1}{8}\\
&=\frac{1}{2}
\\
P(X=2)&=\frac{1}{8}+\frac{1}{4}+\frac{1}{8}\\
&=\frac{1}{2}
\end{align}\\
次に、$X$ のエントロピーを求める。
\begin{align}
H(X)&=-\sum_x P(x) \log P(x) \\
&=-\Bigl(P(X=1)\log P(X=1) + P(X=2) \log P(X=2)\Bigr)\\
&=-(0.5 \times \log 0.5 + 0.5 \times \log 0.5)\\
&=-\log 0.5\\
&=-\log \frac{1}{2}\\
&=-\log 2^{-1}\\
&=1
\end{align}
問題74(結合エントロピー)
結合エントロピーを求める。
\begin{align}
H(X,Y)&=-\sum \sum P(X,Y) \log P(X,Y)\\
&=-\biggl( \frac{1}{8} \log \frac{1}{8} \times 4 + \frac{1}{4} \log \frac{1}{4} \times 2 \biggr)\\
&=-\biggl(\frac{1}{8} \times (-3) \times 4 + \frac{1}{4} \times (-2) \times 2\biggr)\\
&=-\biggl(-\frac{3}{2}-1\biggr)\\
&=2.5
\end{align}
問題75(条件付きエントロピー)
条件付きエントロピー $H(X|Y)$ を求める。
H(X|Y)=H(X,Y)-H(Y)
$H(X,Y)$ は問題74で計算済み。
まず、$H(Y)$ を求める。
$Y$ の事象ごとの確率は
\begin{align}
P(Y=1)&=\frac{1}{8}+\frac{1}{8}\\
&=\frac{1}{4}
\\
P(Y=2)&=\frac{1}{4}+\frac{1}{4}\\
&=\frac{1}{2}
\\
P(Y=3)&=\frac{1}{8}+\frac{1}{8}\\
&=\frac{1}{4}
\end{align}
上記の確率を元に、$H(Y)$ を計算する。
\begin{align}
H(Y)
&=-\sum P \log P\\
&=-\Bigl( P(Y=1)\log P(Y=1)+P(Y=2)\log P(Y=2)+P(Y=3)\log P(Y=3)\Bigr)\\
&=-\biggl(\frac{1}{4}\log \frac{1}{4} \times 2 + \frac{1}{2} \log \frac{1}{2}\biggr)\\
&=-\biggl(\frac{1}{4} \times (-2) \times 2 + \frac{1}{2} \times (-1) \biggr)\\
&=-(-1-0.5)\\
&=1.5
\end{align}
最後に条件付きエントロピー $H(X|Y)$ を求める。
\begin{align}
H(X|Y)&=H(X,Y)-H(Y)\\
&=2.5-1.5\\
&=1
\end{align}
問題80(カテゴリカルクロスエントリピー)
カテゴリカルクロスエントリピー(多クラス交差エントロピーとも)の式
-\sum_{i=1}^n \sum_{j=1}^m t_{i,j} \log p_{i,j}
$p_{i,j}$:予測した値
$t_{i,j}$:真の値