3
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

【JDLA E資格】情報エントロピー

Last updated at Posted at 2021-03-05

#はじめに
JDLA E資格試験で出題される情報エントロピーについて解説した記事です。
E資格試験の応用数学パートでは、情報エントロピーなどの定義などが出題されます
特に、クロスエントロピーやKL-ダイバージェンスは頻出です。
また、情報エントロピーも機械学習・深層学習全般において使用されるため、本稿の内容を理解しておくのは必須です。

なお、他パートの具体的な解説については、下記をご覧ください。
[E資格試験に関する私の投稿記事リスト][link-1]
[link-1]:https://qiita.com/fridericusgauss/items/5a97f2645cdcefe15ce0

###目次

  1. 情報エントロピー
  2. クロスエントロピー
  3. KL-ダイバージェンス
  4. JS-ダイバージェンス
  5. おわりに

###数学表記
$\Omega$は確率変数$X$が取り得る標本空間を表します。
確率や確率分布の諸定義については、下記をご覧ください。
[期待値・分散][link-2]
[確率分布][link-3]
[link-2]:https://qiita.com/fridericusgauss/items/ab36d7cf91093d284ba0
[link-3]:https://qiita.com/fridericusgauss/items/14bbcdc0423fc39067c2

#情報エントロピー
自己情報量(選択情報量)とは、事象の情報量を表す指標です
情報理論においては、__不確実性が高い(起こりにくい)ほど、情報としての価値が高い__とみなします。
事象$X$の自己情報量$I(X)$は式(1)で表せます。

I(X) = -\log_{2}P(X)
\tag{1}

ただし、$P(X)$は事象$X$の確率です。$I(X)$の単位は、対数の底が2のときはビット、自然対数の底$e$のときはナットです。

平均情報量(シャノンの情報エントロピー)$H(X)$は式(2)で表せます。

H(X) = \mathbb{E}[I(X)]=- \sum_{x\in \Omega} P(X=x)\log_{2}P(X=x)
\tag{2}

情報理論において、エントロピーと呼ばれるのは、この平均情報量を示しています。

#クロスエントロピー
クロスエントロピー(交差エントロピー)とは、__真の確率分布に対するモデルの確率分布の離れ度合いを示す尺度__です。
真の確率分布$p(x)$に対するモデルの確率分布$q(x)$のクロスエントロピー$H(p,q)$は式(3)で表せます。

H(p,q) = - \sum_{x\in \Omega} p(x)\log_{2}q(x)
\tag{3}

なお、$p,q$は非対称で、交換すると$H(p,q)\neq H(q,p)$です。
$p=q$のときクロスエントロピーは平均情報量に一致します。
機械学習において、クロスエントロピーは多クラス分類の誤差関数として利用されます

#KL-ダイバージェンス
ダイバージェンスは二つの確率分布の離れ度合い(分離度)を測る尺度で、距離ではありません
特に、KL(カルバック・ライブラー)-ダイバージェンス(KL情報量)とは、_真の確率分布に対するモデルの確率分布の分離度を測る尺度__です。
真の確率分布$p(x)$に対するモデルの確率分布$q(x)$のKL-ダイバージェンス$D
{\mathrm{KL}}(p||q)$は式(4)で表せます。

D_{\mathrm{KL}}(p||q) = \sum_{x\in \Omega} p(x)\log_{2}\frac{p(x)}{q(x)}
\tag{4}

なお、$p,q$は非対称で、交換すると$D_{\mathrm{KL}}(p||q)\neq D_{\mathrm{KL}}(q||p)$です。
$p=q$のときクロスエントロピーは平均情報量に一致します。
機械学習において、変分Auto-Encoder(VAE)などの誤差関数として利用されます

また、KL-ダイバージェンスとクロスエントロピーの間には、式(5)の関係があります。
式(5)の関係はE資格試験では特に問われることが多いです

D_{\mathrm{KL}}(p||q) = H(p,q) - H(p)
\tag{5}

下記のように式(5)は示すことができます。

\begin{align}
D_{\mathrm{KL}}(p||q) =& \sum_{x\in \Omega} p(x)\log_{2}\frac{p(x)}{q(x)}\\
 =& \sum_{x\in \Omega} p(x)(\log_{2}p(x)-\log_{2}q(x))\\
 =& \sum_{x\in \Omega} p(x)\log_{2}p(x)-\sum_{x\in \Omega} p(x)\log_{2}q(x)\\
 =& - \left(-\sum_{x\in \Omega} p(x)\log_{2}p(x)\right) -\sum_{x\in \Omega} p(x)\log_{2}q(x)\\
 =& - H(p) + H(p,q)
\end{align}

KL-ダイバージェンスの詳細は下記などを参考にしてください。
[KL-ダイバージェンス][link-4]
[link-4]:https://www.hellocybernetics.tech/entry/2016/11/17/072852

#JS-ダイバージェンス
JS(イェンセン・シャノン)-ダイバージェンス(JS情報量)も、_真の確率分布に対するモデルの確率分布の分離度を測る尺度__の一つです。
真の確率分布$p(x)$に対するモデルの確率分布$q(x)$のJS-ダイバージェンス$D
{\mathrm{JS}}(p||q)$は式(6)で表せます。

D_{\mathrm{JS}}(p||q) = \frac{1}{2}(D_{\mathrm{KL}}(p||m) +D_{\mathrm{KL}}(q||m))
\tag{6}

ただし、$m(x) = (p(x) + q(x))/2$です。
なお、$p,q$について対称で、交換可能です。
[JS-ダイバージェンス][link-5]
[link-5]:http://yusuke-ujitoko.hatenablog.com/entry/2017/05/07/200022

#おわりに
E資格向けの情報エントロピーについて解説しました。
なお、上記は、2021年2月時点における内容であることにご注意ください。

[E資格試験に関する私の投稿記事リスト][link-1]

3
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?