3
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

エントロピー及びKLダイバージェンスについてのまとめ

Last updated at Posted at 2019-07-18

本記事の用途

  • KLダイバージェンスの理解
  • エントロピーの復習

目次

    1. はじめに
    1. 自己情報量及びエントロピーとは
    1. 結合エントロピーとは
    1. 相互情報量とは
    1. KLダイバージェンスとは

0. はじめに

本記事は、エントロピー及びKLダイバージェンスを理解したい方向けに書かれております。具体例は最小限に、数式をメインにおいた構成となっております。よろしくお願いいたします。

1. 自己情報量及びエントロピーとは

注目する系の事象( $ i=1,2,3, ... $ ) に対して、その確率 $ p_{i} $ が定義される確率空間を考えた時、それぞれの自己情報量 $ \gamma_{p_{i}} $ は
$$ \gamma_{p_{i}} = -k_{\mathrm{B}}^{*1} \log p_{i} \tag{1-1}$$
で定義されます。
この自己情報量を平均したものがエントロピーであり、
$$ S = \sum_{i=1}^{\infty}p_{i}\gamma_{p_{i}} = -k_{\mathrm{B}}\sum_{i=1}^{\infty}p_{i}\log p_{i} \tag{1-2}$$
で定義されます。

*1
本記事中ではボルツマン定数 $ k_{\mathrm{B}} $ を利用しています。情報科学では、$ k = (\log 2 ) ^{-1} \mathrm{bit}, k = 1 \mathrm{nat}, k = ((\log 10 )^{-1} \mathrm{dit} $ などが使われるみたいですが、本記事では、ボルツマン定数 $ k_{\mathrm{B}} \simeq 1.38 \times 10^{-23} \mathrm{J/K} $ を利用します。

2. 結合エントロピーとは

ある2つの確率変数 $ X, Y $ について、 $ X \otimes Y $ が $ (x, y) $ を与える確率を、 $ P(x, y) $ とします。この時、
結合エントロピーは、
$$ S = S(X, Y) \equiv -k_{B} \sum_{x, y} P(x,y) \log P(x, y) \tag{2-1}$$
で定義されます。
さらに、ある特定の $ y $ について、$ Y = y $ と定まった時の $ X $ についてのエントロピー $ S = S(X | Y = y ) $ を条件付き確率を用いて、
$$ S(X | Y = y ) \equiv -k_{B}\sum_{x}P(x|y)\log P(x|y) \tag{2-2}$$
とします。
ここで、(2-2)式について、$ y $ の全てについての平均をとって、条件付エントロピー $ S(X | Y) $ を、

$$ S(X | Y ) \equiv \sum_{y} P(y) S(X | Y = y ) = -k_{B}\sum_{x, y} P(x, y) \log P(x | y) \tag{2-3} $$
とします。これを、条件付エントロピーと呼びます。

3. 相互情報量とは

相互情報量 $ I(X, Y) $ は、
$$ I(X, Y) = S(X) + S(Y) - S(X, Y) \tag{3-1}$$
で定義されます。
$ X $ と $ Y $ が独立な時、$ I(X, Y) = 0 $ となります。なぜなら、
$$ S(X, Y) = -k_{\mathrm{B}}\sum_{x}\sum_{y}P(x)P(y)(\log P(x) + \log P(y)) = S(X) + S(Y) \tag{3-2}$$
となるからです。

$ X $ と $ Y $ が独立でない時、

\begin{eqnarray}
I(X, Y) &=& -k_{\mathrm{B}}\Bigl[\sum_{x}P(x)\log P(x) + \sum_{y}P(y) \log P(y) - \sum_{x, y}P(x, y)\log P(x, y)\Bigl] \\
 &=& -k_{\mathrm{B}}\Bigl[\sum_{x}\big(\sum_{y}P(x, y) \big) \log P(x) + \sum_{y}\big(\sum_{x} P(x, y) \big) \log P(y) - \sum_{x, y} P(x, y) \log P(x, y)\Bigl] \\
&=& -k_{\mathrm{B}}\sum_{x, y} P(x, y) \log \frac{P(x)P(y)}{P(x, y)} \tag{3-3}\\
\end{eqnarray}

と計算できます。
ここで、一般の正の実数 $ x ( >0 )$ について、$ \log (x ) \leq x - 1 $ が成り立つことに注意して、(3-3)式を評価すると、
$$ I(X, Y) = -k_{\mathrm{B}}\sum_{x, y} P(x, y) \log \frac{P(x)P(y)}{P(x, y)} \geq \
-k_{\mathrm{B}}\sum_{x, y} P(x, y) \Bigl(\frac{P(x)P(y)}{P(x, y)} - 1 \Bigl) \tag{3-4} $$
となり、$ I(X, Y) \geq 0 $ であることがわかります。さらに、この等号成立条件は、$ P(x)P(y) / P(x, y) = 1 $ の時だけなので、$ X $ と $ Y $ が独立な時に限り、$ I(X, Y) = 0 $であることがわかります。
また、(3-1)式及び $ I(X, Y) \geq 0 $ の関係より、
$$ S(X, Y) \leq S(X) + S(Y) \tag{3-5}$$
が成り立ちます。これをエントロピーの劣加法性といいます。

4. KLダイバージェンスとは

ある1つの確率変数 $ X $ = { $ x_{1}, x_{2}, ... $} に対して異なる2つの確率分布 $ p $ = { $ p_{1}, p_{2}, ... $} と$ q $ = {$ q_{1}, q_{2}, ... $}を比較する場合を考えます。
イメージで言えば、コインの面と裏の出る確率を{1/2, 1/2} とする確率分布と、{2/3, 1/3}とする確率分布を比較するような作業です。

$ X = x_{i} $ が観測された時の自己情報量は、確率分布が $ p $ の場合には、$ \gamma_{p} = -k_{\mathrm{B}} \log p_{i} $ , 確率分布が $ q $ の場合には、$ \gamma_{q} = -k_{\mathrm{B}} \log q_{i} $ です。
この時、 $ \gamma_{p} - \gamma_{q} $ を確率分布 $ p $ について平均して、
$$ D(p|q) \equiv k_{\mathrm{B}} \sum_{i}p_{i} \log \frac{p_{i}}{q_{i}} \tag{4-1}$$
とします。これを、$ q $ に対する $ p $ のKullback-Leiblerダイバージェンス (KLダイバージェンス) と呼びます。ここでも、$ \log (x ) \leq x - 1 $ を用いて、
$$ D(p|q) = - k_{\mathrm{B}} \sum_{i}p_{i} \log \frac{q_{i}}{p_{i}} \geq -k_{\mathrm{B}}\sum_{i}p_{i}\Bigl(\frac{q_{i}}{p_{i}} - 1 \Bigl) \tag{4-2}$$
とすることができるので、等号成立条件 $ p $ = $ q $ の時にのみ、$ D(p|q) = 0 $ となり、それ以外では、正の量をとる値として振舞うことがわかります。

また、KLダイバージェンスの意味がわかりやすいように、確率分布$ p $ と $ q $ について、 $ p $ が $ q $ からわずかにずれている場合、つまり
$$ p_{j} = q_{j} + \delta q_{j}$$ が成り立つ時を考えます。この時、 $ D(p|q) $は、

\begin{eqnarray}
D(p|q) &=& k_{\mathrm{B}}\sum_{j}(q_{j} + \delta q_{j})\log \frac{q_{j} + \delta q_{j}}{q_{j}} \\
&=& k_{\mathrm{B}}\sum_{j}(q_{j} + \delta q_{j})\log \Bigl(1 + \frac{\delta q_{j}}{q_{j}}\Bigl) \\
&\simeq& k_{\mathrm{B}}\sum_{j}(q_{j} + \delta q_{j})\frac{\delta q_{j}}{q_{j}} \\
&\simeq& k_{\mathrm{B}}\sum_{j}\delta q_{j}
\end{eqnarray}

となります。これはまさに、それぞれのずれ{ $ \delta q_{j} $ } の総和に他ならないので、$ q $ に対する $ p $ の距離と言えます。ただ、$ D(p|q) \neq D(q|p) $ より、通常の意味の距離ではありません。だからこそダイバージェンスと呼ばれます。「$ q $ に対する $ p $ の」という枕詞をつけないと意思疎通ができないことがあるので、このあたりの言葉遣いは丁寧に行う必要があります。

終わりに

最後までご覧いただきありがとうございました !

参考文献

大学の物理数学の講義ノート

3
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?