2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

情報理論のまとめ

Last updated at Posted at 2020-10-26

この記事は個人的なお勉強用のメモです。

情報量・エントロピーの一覧

記号 XX情報量 YYエントロピー等
$I(E)$ 自己情報量
選択情報量
自己エントロピー
$H(P)$ 平均情報量
シャノン情報量
エントロピー
シャノンエントロピー
$H(X,Y)$ 結合エントロピー
$H(X|Y)$ 条件付きエントロピー
$I(X,Y)$ 相互情報量
$D_{KL}(P||Q)$ カルバック・ライブラー情報量 相対エントロピー
カルバック・ライブラー・ダイバージェンス
KLダイバージェンス
$H(P,Q)$ 交差エントロピー
クロスエントロピー

自己情報量

選択情報量や自己エントロピーとも。

I(x)=-\log(P(x))=\log(W(x))

$I(x)$:$x$ の場合の自己情報量
$P(x)$:$x$ が起こる確率
$W(x)$:$x$ のときの事象の数

起こる確率が低ければ低いほど、自己情報量は多い。
(珍しいほど価値がある、というイメージ)

対数の低が $2$ の場合、単位はビット(bit)。
対数の低が $e$ の場合、単位は nat。
(ビットの方がよく使われるらしい)

$-\log(P(x))$ の式の先頭がマイナスになっているが問題ない。
この関数は右肩下がりで $x$ 軸 $P(x)=1$ のときに $0$ になるが、
$P(x)$ は確率なので、$ 0\leq P(x) \leq 1$ である。
つまり、$-\log(P(x))$ の値は必ず $0$ 以上である。

シャノンエントロピー

平均情報量やエントロピーとも。

自己情報量の期待値(平均)

\begin{align}
H(x)&=E\bigl(I(x)\bigr)\\
&=-E\bigl(\log(P(x))\bigr)\\
&=-\sum P(x)\log{P(x)}
\end{align}

カルバック・ライブラー ダイバージェンス

カルバック・ライブラー情報量やKLダイバージェンスとも。

同じ事象・確率における、異なる確率変数 $P$ と $Q$ の違いを表す。
イメージとしては $P$ と $Q$ の距離に近いが、
距離の定義を満たしていないので、距離とは呼ばない。

\begin{align}
D_{KL}(P||Q)&=E_{x~P} \Bigg[\log \frac{P(x)}{Q(x)}\Bigg]\\
&=E_{x~P} \Bigg[ \log P(x) - \log Q(x) \Bigg]\\
&=\sum_x P(x)\Bigl(-\log (Q(x)) -(-\log(P(x))\Bigr)\\
&=\sum_x P(x)\log \frac{P(x)}{Q(x)}
\end{align}

$Q$:予測の分布
$P$:正解の分布

この式は、シャノンエントロピーの式に似ている。
(シャノンエントロピーは $P(x)$ だが、KLダイバージェンスは $\frac{P(x)}{Q(x)}$)

交差エントロピー

クロスエントロピーとも。

KLダイバージェンスの一部を取り出したもの。
$Q$ についての自己情報量を $P$ の分布で平均している。

\begin{align}
H(P,Q)&=H(P)-D_{KL}(P||Q)\\
&=-E_{x~P}\log Q(x)\\
&=-\sum_x P(x)\log Q(x)
\end{align}

これもシャノンエントロピーに似ている。
(シャノンエントロピーは $P(x)$ だが、交差エントロピーは $Q(x)$)

交差エントロピーは2クラス分類の誤差関数(損失関数)に使われる。
$P$ と $Q$ が似ていると交差エントロピーは小さい。($P=Q$ のときに最小値 $H(P)$、KLダイバージェンスは $0$)
$P$ と $Q$ が似ていないと交差エントロピーは大きい。

演習問題

問4.1.1

\begin{align}
-log_2(P(x))&=-log_2\frac{1}{2}\\
&=1 (bit)
\end{align}

問4.1.2

\begin{align}
-log_2(P(x))&=-log_2\frac{1}{4}\\
&=2 (bit)
\end{align}

問4.1.3

二項分布の式より、

\begin{align}
P&=\frac{n!}{x!(n-x)!}\mu^x(1-\mu)^{n-x}\\
&=\frac{n!}{1!(n-1)!}\biggl(\frac{1}{2}\biggr)^x\biggl(1-\frac{1}{2}\biggr)^{n-1}\\
&=\frac{n}{2^n}
\end{align}
\begin{align}
情報量 I&=-\log_2P\\
&=-\log_2 \frac{n}{2^n}\\
&=-\Bigl(\log_2 n - \log_2 2^n\Bigr)\\
&=-log_2 n + n \, (bit)
\end{align}

問6.1

\begin{align}
\log(X)&=\log(AB)\\
&=\log(A) + \log(B)
\end{align}

問6.2

\begin{align}
\log(X)&=\log\biggl(\frac{A}{B}\biggr)\\
&=\log(A)-\log(B)
\end{align}

問6.3

\begin{align}
\log(X)&=\log(x_1 x_2 x_3 x_4)\\
&=\log(x_1) + \log(x_2) + \log(x_3) + \log(x_4)\\
&=\sum_{k=1}^4 \log(x_k)
\end{align}

問7.5

シャノンエントロピー

H(x)=-\sum P(x)\log\bigl(P(x)\bigr)

修了テスト~練習問題~

問題2(交差エントロピーの定義)

-\sum_k t_k \log y_k\\
(交差エントロピー-\sum_x P(x) \log Q(x)の変数が違うだけ)

$y$:モデルの推定値
$t$:正解ラベル

問題3(交差エントロピーの計算)

仮説 $Q$ :$[0.8, 0.2]$
正解 $P$ :$[1.0, 0.0]$

\begin{align}
交差エントロピー
&=-\sum_x P(x) \log Q(x)\\
&= -(1.0 \times \log 0.8 + 0.0 \times \log 0.2)\\
&= -\log 0.8\\
&= 0.09
\end{align}

問題47(エントロピー)

ある事象に対する情報量の期待値を、エントロピーという。

問題48(KLダイバージェンス)

KLダイバージェンス

  • 二つの確率分布の擬距離を定量化する指標
  • $D(Q||P) = \int q(x) \log \frac{q(x)}{p(x)} dx$
  • 非負の関数

問題49(KLダイバージェンス)

KLダイバージェンスの式を変形

\begin{align}
D(P||Q)
&=\int q(x) \log \frac{q(x)}{p(x)} \\
&=\int q(x) \log q(x)-\int q(x) \log p(x)
\end{align}

$q(x)$:真の分布
$p(x)$:推定されたモデルの分布

第2項のみ用いる。
第1項を用いない理由は、$q(x)$ は真の分布であることから、第1項は一定であるため。
(第2項のみであれば、これが意味することは交差エントロピーなのでは)

問題50(JSダイバージェンス)

二つの確率分布の順番を入れ替えると式の値が変わるのは、KLダイバージェンス。
式の値が変わらないのは、JSダイバージェンス。

参考

JSD=\frac{D(P||Q)}{2}+\frac{D(Q||P)}{2}

JSダイバージェンスは対称性がある。

問題51(情報量)

確率分布表

確率変数 $X$ 1 2 3 4 5 6
確率 $P$ 0.5 0.1 0.1 0.1 0.1 0.1
\begin{align}
4の場合の情報量&=-\log \Bigl( P(x) \Bigr)\\
&=-\log_2 0.1
\end{align}

問題52(シャノンエントロピー)

確率変数 $X$ に対するエントロピー、
つまり、シャノンエントロピー(エントロピーの期待値)を問うている。
(問題文に $X_1$ と書いているが、これはサイコロの目が $1$ の場合の確率変数という意味ではない。)

\begin{align}
シャノンエントロピー
&=-\sum_x \biggl(p(x)\log P(x)\biggr)\\
&=-(0.5 \times \log_2 0.5 + 0.1 \times \log_2 0.1 \times 5)\\
&=-0.5 \times \log_2 0.5 - 0.1 \times \log_2 0.1 \times 5
\end{align}

問題53(結合エントロピー)

結合エントロピー
紛らわしいことに、結合エントロピーと交差エントロピーのどちらも $H(X,Y)$ で表す。

\begin{align}
H(X,Y)&=-\sum_{i=1}^{M_X} \sum_{j=1}^{M_Y} P(x_i, y_j) \log P(x_i, y_j) \quad (離散型の場合)\\
H(X,Y)&=\int P(x, y) \log P(x, y) dx dy\quad (連続型の場合)
\end{align}

本問は離散型。

H(X,Y)=-\bigl(0.25 * \log(0.25) * 2 + (0.01 * \log(0.01) + 0.09 * \log(0.09)) * 5 \bigr)

問題54(相互情報量)

相互情報量の式

I(X_1, Y)=H(X_1)-H(X_1|Y)

$I(X_1, Y)$:相互情報量
$H(X_1)$:$X_1$ のエントロピー
$H(X_1|Y)$:$Y$ がわかった上での $X_1$ のエントロピー

式そのものは条件付き確率に近い。

問題72(自己情報量)

自己情報量の式

I(A)=\log P(A)

問題73(エントロピー)

$H(X)$ の値とは、$X$ のエントロピーのこと。
まず、$X$ の事象ごとの確率を求める。

\begin{align}
P(X=1)&=\frac{1}{8}+\frac{1}{4}+\frac{1}{8}\\
&=\frac{1}{2}
\\
P(X=2)&=\frac{1}{8}+\frac{1}{4}+\frac{1}{8}\\
&=\frac{1}{2}
\end{align}\\

次に、$X$ のエントロピーを求める。

\begin{align}
H(X)&=-\sum_x P(x) \log P(x) \\
&=-\Bigl(P(X=1)\log P(X=1) + P(X=2) \log P(X=2)\Bigr)\\
&=-(0.5 \times \log 0.5 + 0.5 \times \log 0.5)\\
&=-\log 0.5\\
&=-\log \frac{1}{2}\\
&=-\log 2^{-1}\\
&=1 
\end{align}

問題74(結合エントロピー)

結合エントロピーを求める。

\begin{align}
H(X,Y)&=-\sum \sum P(X,Y) \log P(X,Y)\\
&=-\biggl( \frac{1}{8} \log \frac{1}{8} \times 4 + \frac{1}{4} \log \frac{1}{4} \times 2 \biggr)\\
&=-\biggl(\frac{1}{8} \times (-3) \times 4 + \frac{1}{4} \times (-2) \times 2\biggr)\\
&=-\biggl(-\frac{3}{2}-1\biggr)\\
&=2.5
\end{align}

問題75(条件付きエントロピー)

条件付きエントロピー $H(X|Y)$ を求める。

H(X|Y)=H(X,Y)-H(Y)

$H(X,Y)$ は問題74で計算済み。
まず、$H(Y)$ を求める。
$Y$ の事象ごとの確率は

\begin{align}
P(Y=1)&=\frac{1}{8}+\frac{1}{8}\\
&=\frac{1}{4}
\\
P(Y=2)&=\frac{1}{4}+\frac{1}{4}\\
&=\frac{1}{2}
\\
P(Y=3)&=\frac{1}{8}+\frac{1}{8}\\
&=\frac{1}{4}
\end{align}

上記の確率を元に、$H(Y)$ を計算する。

\begin{align}
H(Y)
&=-\sum P \log P\\
&=-\Bigl( P(Y=1)\log P(Y=1)+P(Y=2)\log P(Y=2)+P(Y=3)\log P(Y=3)\Bigr)\\
&=-\biggl(\frac{1}{4}\log \frac{1}{4} \times 2 + \frac{1}{2} \log \frac{1}{2}\biggr)\\
&=-\biggl(\frac{1}{4} \times (-2) \times 2 + \frac{1}{2} \times (-1) \biggr)\\
&=-(-1-0.5)\\
&=1.5
\end{align}

最後に条件付きエントロピー $H(X|Y)$ を求める。

\begin{align}
H(X|Y)&=H(X,Y)-H(Y)\\
&=2.5-1.5\\
&=1
\end{align}

問題80(カテゴリカルクロスエントリピー)

カテゴリカルクロスエントリピー(多クラス交差エントロピーとも)の式

-\sum_{i=1}^n \sum_{j=1}^m t_{i,j} \log p_{i,j}

$p_{i,j}$:予測した値
$t_{i,j}$:真の値

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?