エントロピーとは
ちまたでエントロピーという言葉を聞くことがあるかもしれませんが、あれは何を表しているかというと、情報の多さ(大きさ)とも捉えることができます。ここら辺の説明や例はググるといろいろでてくるので、そちらをどうぞ。
エントロピーの定義
いちばんオーソドックスな定義は
H(X)=-\sum_x p(x)log p(x)
でしょう。$p(x)$は確率なので$0\leq p(x) \leq 1$の値を取るので、その範囲では、logの定を2としても$e$としても$log p(x)$の値が負になるので、エントロピーの値が非負となることが直感的にわかるでしょう。(※厳密な証明ではないです) また確率変数が離散の場合は
H(X)=-\int p(x)log p(x)dx
となります。
一般に確率p(x)が0に近い値ばかり、あるいは1に近い値ばかり取ると、エントロピーは小さくなるが、値が散らばるとエントロピーが大きくなります。
相互情報量
2つの確率変数が与えられた時に、その2つの依存具合を示すものである。2つの確率変数が独立な場合相互情報量は0となる。相互情報量には2つの定義がある。
一般的な定義
I(X,Y)=\int \int p(x,y)log\frac{p(x,y)}{p(x)p(y)}dxdy
相互情報量という名前ではこちらが良く使われている気がします。logの分子には同時分布、分母には周辺分布が用いられており、$p(x)とp(y)$が独立、つまり$p(x,y)=p(x)p(y)$のとき、この値が0となるのも納得できよう。
KLダイバージェンス
KL(p,q)=\int p(x)log\frac{p(x)}{q(x)}dx
カルバックライブラー情報量とも呼ばれますが、こちらもp(X)とq(x)の分布の近さを測る距離(厳密には距離ではない)として使われています。値が小さいほど2つの分布の距離が近い考えられます。EMアルゴリズムの最適性について証明するときや、AICなどの情報量規準の文脈で見られます。
一般的な定義は$p(x,y)$と$p(x)p(y)$のKLダイバージェンスと考えることもできます。
交差エントロピー
H(X)=-\sum p(x)log q(x)
交差エントロピーは決定木のノードの分割規準(不純度)やニューラルネットの損失関数の文脈で用いられることがあります。一般のエントロピーがp(x)のみを使っていたのに対し、交差エントロピーはp(x)とq(x)という2つの分布を使っています。こちらも2つの分布が異なると値が大きくなります。
ネゲントロピー
ネゲントロピーとは、非ガウス性の基準となる指標で、独立成分分析において独立成分を推定する際に非ガウス性を利用しており、そこで用いられる。
J(x)=H(x_{gauss})-H(x)
このように定義されるが、第1項は確率変数ベクトル$x$がガウス性(正規分布に従う)を持つとしたときの、エントロピーである。$x$がガウス性を持つ場合は$J(x)$が0となるので、独立成分の推定ではこの値が大きくなるように推定する。
$H(x_{gauss})$を導出する。$x$が多変量(p変量)正規分布に従うとすると、確率密度関数は
p(x|\mu,\Sigma)=\frac{1}{2\pi^{p/2}|\Sigma|^{1/2}}exp\{-\frac{1}{2}({x}-\mu)^T\Sigma^{-1}({x}-\mu)\} \nonumber
と表される。あらかじめ$exp$の中を変形する。ベクトルなのでトレース作用素を用いても変わらないことと、トレースの性質$tr(AB)=tr(BA)$を用いて
\begin{align}
({x}-\mu)^T\Sigma^{-1}({x}-\mu) &= tr\{({x}-\mu)^T\Sigma^{-1}({x}-\mu)\} \\
&= tr\{\Sigma^{-1}({x}-\mu)({x}-\mu)^T\} \\
&= tr(\Sigma^{-1}\Sigma) \hspace{10pt}※\Sigmaは共分散行列 \\
&= tr(I_p) \hspace{10pt}※Iは単位行列 \\
&= p
\end{align}
と書き直すことができる。よって
\begin{align}
H(x_{gauss}) &= -\int p(x)logp(x)dx \\
&= -\int p(x)\{-\frac{p}{2}log2\pi-\frac{1}{2}log|\Sigma|-\frac{p}{2}\}dx \\
&= \frac{p}{2}log2\pi \int p(x)dx + \frac{1}{2}log|\Sigma|\int p(x)dx +\frac{p}{2} \int p(x) dx \\
&= \frac{p}{2}log2\pi + \frac{1}{2}log|\Sigma|+\frac{p}{2} \\
&= \frac{1}{2}log|\Sigma| + \frac{p}{2}\{log2\pi+1\}
\end{align}
となる。