More than 5 years have passed since last update.

エントロピーを簡単に

Last updated at 2019-02-22Posted at 2019-02-22

エントロピーとは

ちまたでエントロピーという言葉を聞くことがあるかもしれませんが、あれは何を表しているかというと、情報の多さ(大きさ)とも捉えることができます。ここら辺の説明や例はググるといろいろでてくるので、そちらをどうぞ。

エントロピーの定義

いちばんオーソドックスな定義は

H(X)=-\sum_x p(x)log p(x)

でしょう。$p(x)$は確率なので$0\leq p(x) \leq 1$の値を取るので、その範囲では、logの定を2としても$e$としても$log p(x)$の値が負になるので、エントロピーの値が非負となることが直感的にわかるでしょう。(※厳密な証明ではないです) また確率変数が離散の場合は

H(X)=-\int p(x)log p(x)dx

となります。
一般に確率p(x)が0に近い値ばかり、あるいは１に近い値ばかり取ると、エントロピーは小さくなるが、値が散らばるとエントロピーが大きくなります。

相互情報量

２つの確率変数が与えられた時に、その2つの依存具合を示すものである。２つの確率変数が独立な場合相互情報量は0となる。相互情報量には２つの定義がある。

一般的な定義

I(X,Y)=\int \int p(x,y)log\frac{p(x,y)}{p(x)p(y)}dxdy

相互情報量という名前ではこちらが良く使われている気がします。logの分子には同時分布、分母には周辺分布が用いられており、$p(x)とp(y)$が独立、つまり$p(x,y)=p(x)p(y)$のとき、この値が0となるのも納得できよう。

KLダイバージェンス

KL(p,q)=\int p(x)log\frac{p(x)}{q(x)}dx

カルバックライブラー情報量とも呼ばれますが、こちらもp(X)とq(x)の分布の近さを測る距離(厳密には距離ではない)として使われています。値が小さいほど2つの分布の距離が近い考えられます。EMアルゴリズムの最適性について証明するときや、AICなどの情報量規準の文脈で見られます。
一般的な定義は$p(x,y)$と$p(x)p(y)$のKLダイバージェンスと考えることもできます。

交差エントロピー

H(X)=-\sum p(x)log q(x)

交差エントロピーは決定木のノードの分割規準(不純度)やニューラルネットの損失関数の文脈で用いられることがあります。一般のエントロピーがp(x)のみを使っていたのに対し、交差エントロピーはp(x)とq(x)という2つの分布を使っています。こちらも2つの分布が異なると値が大きくなります。

ネゲントロピー

ネゲントロピーとは、非ガウス性の基準となる指標で、独立成分分析において独立成分を推定する際に非ガウス性を利用しており、そこで用いられる。

J(x)=H(x_{gauss})-H(x)

このように定義されるが、第1項は確率変数ベクトル$x$がガウス性(正規分布に従う)を持つとしたときの、エントロピーである。$x$がガウス性を持つ場合は$J(x)$が0となるので、独立成分の推定ではこの値が大きくなるように推定する。
$H(x_{gauss})$を導出する。$x$が多変量(p変量)正規分布に従うとすると、確率密度関数は

p(x|\mu,\Sigma)=\frac{1}{2\pi^{p/2}|\Sigma|^{1/2}}exp\{-\frac{1}{2}({x}-\mu)^T\Sigma^{-1}({x}-\mu)\} \nonumber

と表される。あらかじめ$exp$の中を変形する。ベクトルなのでトレース作用素を用いても変わらないことと、トレースの性質$tr(AB)=tr(BA)$を用いて

\begin{align}
({x}-\mu)^T\Sigma^{-1}({x}-\mu) &= tr\{({x}-\mu)^T\Sigma^{-1}({x}-\mu)\} \\
&= tr\{\Sigma^{-1}({x}-\mu)({x}-\mu)^T\} \\
&= tr(\Sigma^{-1}\Sigma) \hspace{10pt}※\Sigmaは共分散行列 \\
&= tr(I_p) \hspace{10pt}※Iは単位行列 \\
&= p
\end{align}

と書き直すことができる。よって

\begin{align}
H(x_{gauss}) &= -\int p(x)logp(x)dx \\
&= -\int p(x)\{-\frac{p}{2}log2\pi-\frac{1}{2}log|\Sigma|-\frac{p}{2}\}dx \\
&= \frac{p}{2}log2\pi \int p(x)dx + \frac{1}{2}log|\Sigma|\int p(x)dx +\frac{p}{2} \int p(x) dx \\
&= \frac{p}{2}log2\pi + \frac{1}{2}log|\Sigma|+\frac{p}{2} \\
&= \frac{1}{2}log|\Sigma| + \frac{p}{2}\{log2\pi+1\}
\end{align}

となる。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up