#はじめに
JDLA E資格試験で出題される情報エントロピーについて解説した記事です。
E資格試験の応用数学パートでは、情報エントロピーなどの定義などが出題されます。
特に、クロスエントロピーやKL-ダイバージェンスは頻出です。
また、情報エントロピーも機械学習・深層学習全般において使用されるため、本稿の内容を理解しておくのは必須です。
なお、他パートの具体的な解説については、下記をご覧ください。
[E資格試験に関する私の投稿記事リスト][link-1]
[link-1]:https://qiita.com/fridericusgauss/items/5a97f2645cdcefe15ce0
###目次
###数学表記
$\Omega$は確率変数$X$が取り得る標本空間を表します。
確率や確率分布の諸定義については、下記をご覧ください。
[期待値・分散][link-2]
[確率分布][link-3]
[link-2]:https://qiita.com/fridericusgauss/items/ab36d7cf91093d284ba0
[link-3]:https://qiita.com/fridericusgauss/items/14bbcdc0423fc39067c2
#情報エントロピー
自己情報量(選択情報量)とは、事象の情報量を表す指標です。
情報理論においては、__不確実性が高い(起こりにくい)ほど、情報としての価値が高い__とみなします。
事象$X$の自己情報量$I(X)$は式(1)で表せます。
I(X) = -\log_{2}P(X)
\tag{1}
ただし、$P(X)$は事象$X$の確率です。$I(X)$の単位は、対数の底が2のときはビット、自然対数の底$e$のときはナットです。
平均情報量(シャノンの情報エントロピー)$H(X)$は式(2)で表せます。
H(X) = \mathbb{E}[I(X)]=- \sum_{x\in \Omega} P(X=x)\log_{2}P(X=x)
\tag{2}
情報理論において、エントロピーと呼ばれるのは、この平均情報量を示しています。
#クロスエントロピー
クロスエントロピー(交差エントロピー)とは、__真の確率分布に対するモデルの確率分布の離れ度合いを示す尺度__です。
真の確率分布$p(x)$に対するモデルの確率分布$q(x)$のクロスエントロピー$H(p,q)$は式(3)で表せます。
H(p,q) = - \sum_{x\in \Omega} p(x)\log_{2}q(x)
\tag{3}
なお、$p,q$は非対称で、交換すると$H(p,q)\neq H(q,p)$です。
$p=q$のときクロスエントロピーは平均情報量に一致します。
機械学習において、クロスエントロピーは多クラス分類の誤差関数として利用されます。
#KL-ダイバージェンス
ダイバージェンスは二つの確率分布の離れ度合い(分離度)を測る尺度で、距離ではありません。
特に、KL(カルバック・ライブラー)-ダイバージェンス(KL情報量)とは、_真の確率分布に対するモデルの確率分布の分離度を測る尺度__です。
真の確率分布$p(x)$に対するモデルの確率分布$q(x)$のKL-ダイバージェンス$D{\mathrm{KL}}(p||q)$は式(4)で表せます。
D_{\mathrm{KL}}(p||q) = \sum_{x\in \Omega} p(x)\log_{2}\frac{p(x)}{q(x)}
\tag{4}
なお、$p,q$は非対称で、交換すると$D_{\mathrm{KL}}(p||q)\neq D_{\mathrm{KL}}(q||p)$です。
$p=q$のときクロスエントロピーは平均情報量に一致します。
機械学習において、変分Auto-Encoder(VAE)などの誤差関数として利用されます。
また、KL-ダイバージェンスとクロスエントロピーの間には、式(5)の関係があります。
式(5)の関係はE資格試験では特に問われることが多いです。
D_{\mathrm{KL}}(p||q) = H(p,q) - H(p)
\tag{5}
下記のように式(5)は示すことができます。
\begin{align}
D_{\mathrm{KL}}(p||q) =& \sum_{x\in \Omega} p(x)\log_{2}\frac{p(x)}{q(x)}\\
=& \sum_{x\in \Omega} p(x)(\log_{2}p(x)-\log_{2}q(x))\\
=& \sum_{x\in \Omega} p(x)\log_{2}p(x)-\sum_{x\in \Omega} p(x)\log_{2}q(x)\\
=& - \left(-\sum_{x\in \Omega} p(x)\log_{2}p(x)\right) -\sum_{x\in \Omega} p(x)\log_{2}q(x)\\
=& - H(p) + H(p,q)
\end{align}
KL-ダイバージェンスの詳細は下記などを参考にしてください。
[KL-ダイバージェンス][link-4]
[link-4]:https://www.hellocybernetics.tech/entry/2016/11/17/072852
#JS-ダイバージェンス
JS(イェンセン・シャノン)-ダイバージェンス(JS情報量)も、_真の確率分布に対するモデルの確率分布の分離度を測る尺度__の一つです。
真の確率分布$p(x)$に対するモデルの確率分布$q(x)$のJS-ダイバージェンス$D{\mathrm{JS}}(p||q)$は式(6)で表せます。
D_{\mathrm{JS}}(p||q) = \frac{1}{2}(D_{\mathrm{KL}}(p||m) +D_{\mathrm{KL}}(q||m))
\tag{6}
ただし、$m(x) = (p(x) + q(x))/2$です。
なお、$p,q$について対称で、交換可能です。
[JS-ダイバージェンス][link-5]
[link-5]:http://yusuke-ujitoko.hatenablog.com/entry/2017/05/07/200022
#おわりに
E資格向けの情報エントロピーについて解説しました。
なお、上記は、2021年2月時点における内容であることにご注意ください。
[E資格試験に関する私の投稿記事リスト][link-1]