本記事の用途
- KLダイバージェンスの理解
- エントロピーの復習
目次
-
- はじめに
-
- 自己情報量及びエントロピーとは
-
- 結合エントロピーとは
-
- 相互情報量とは
-
- KLダイバージェンスとは
0. はじめに
本記事は、エントロピー及びKLダイバージェンスを理解したい方向けに書かれております。具体例は最小限に、数式をメインにおいた構成となっております。よろしくお願いいたします。
1. 自己情報量及びエントロピーとは
注目する系の事象( $ i=1,2,3, ... $ ) に対して、その確率 $ p_{i} $ が定義される確率空間を考えた時、それぞれの自己情報量 $ \gamma_{p_{i}} $ は
$$ \gamma_{p_{i}} = -k_{\mathrm{B}}^{*1} \log p_{i} \tag{1-1}$$
で定義されます。
この自己情報量を平均したものがエントロピーであり、
$$ S = \sum_{i=1}^{\infty}p_{i}\gamma_{p_{i}} = -k_{\mathrm{B}}\sum_{i=1}^{\infty}p_{i}\log p_{i} \tag{1-2}$$
で定義されます。
*1
本記事中ではボルツマン定数 $ k_{\mathrm{B}} $ を利用しています。情報科学では、$ k = (\log 2 ) ^{-1} \mathrm{bit}, k = 1 \mathrm{nat}, k = ((\log 10 )^{-1} \mathrm{dit} $ などが使われるみたいですが、本記事では、ボルツマン定数 $ k_{\mathrm{B}} \simeq 1.38 \times 10^{-23} \mathrm{J/K} $ を利用します。
2. 結合エントロピーとは
ある2つの確率変数 $ X, Y $ について、 $ X \otimes Y $ が $ (x, y) $ を与える確率を、 $ P(x, y) $ とします。この時、
結合エントロピーは、
$$ S = S(X, Y) \equiv -k_{B} \sum_{x, y} P(x,y) \log P(x, y) \tag{2-1}$$
で定義されます。
さらに、ある特定の $ y $ について、$ Y = y $ と定まった時の $ X $ についてのエントロピー $ S = S(X | Y = y ) $ を条件付き確率を用いて、
$$ S(X | Y = y ) \equiv -k_{B}\sum_{x}P(x|y)\log P(x|y) \tag{2-2}$$
とします。
ここで、(2-2)式について、$ y $ の全てについての平均をとって、条件付エントロピー $ S(X | Y) $ を、
$$ S(X | Y ) \equiv \sum_{y} P(y) S(X | Y = y ) = -k_{B}\sum_{x, y} P(x, y) \log P(x | y) \tag{2-3} $$
とします。これを、条件付エントロピーと呼びます。
3. 相互情報量とは
相互情報量 $ I(X, Y) $ は、
$$ I(X, Y) = S(X) + S(Y) - S(X, Y) \tag{3-1}$$
で定義されます。
$ X $ と $ Y $ が独立な時、$ I(X, Y) = 0 $ となります。なぜなら、
$$ S(X, Y) = -k_{\mathrm{B}}\sum_{x}\sum_{y}P(x)P(y)(\log P(x) + \log P(y)) = S(X) + S(Y) \tag{3-2}$$
となるからです。
$ X $ と $ Y $ が独立でない時、
\begin{eqnarray}
I(X, Y) &=& -k_{\mathrm{B}}\Bigl[\sum_{x}P(x)\log P(x) + \sum_{y}P(y) \log P(y) - \sum_{x, y}P(x, y)\log P(x, y)\Bigl] \\
&=& -k_{\mathrm{B}}\Bigl[\sum_{x}\big(\sum_{y}P(x, y) \big) \log P(x) + \sum_{y}\big(\sum_{x} P(x, y) \big) \log P(y) - \sum_{x, y} P(x, y) \log P(x, y)\Bigl] \\
&=& -k_{\mathrm{B}}\sum_{x, y} P(x, y) \log \frac{P(x)P(y)}{P(x, y)} \tag{3-3}\\
\end{eqnarray}
と計算できます。
ここで、一般の正の実数 $ x ( >0 )$ について、$ \log (x ) \leq x - 1 $ が成り立つことに注意して、(3-3)式を評価すると、
$$ I(X, Y) = -k_{\mathrm{B}}\sum_{x, y} P(x, y) \log \frac{P(x)P(y)}{P(x, y)} \geq \
-k_{\mathrm{B}}\sum_{x, y} P(x, y) \Bigl(\frac{P(x)P(y)}{P(x, y)} - 1 \Bigl) \tag{3-4} $$
となり、$ I(X, Y) \geq 0 $ であることがわかります。さらに、この等号成立条件は、$ P(x)P(y) / P(x, y) = 1 $ の時だけなので、$ X $ と $ Y $ が独立な時に限り、$ I(X, Y) = 0 $であることがわかります。
また、(3-1)式及び $ I(X, Y) \geq 0 $ の関係より、
$$ S(X, Y) \leq S(X) + S(Y) \tag{3-5}$$
が成り立ちます。これをエントロピーの劣加法性といいます。
4. KLダイバージェンスとは
ある1つの確率変数 $ X $ = { $ x_{1}, x_{2}, ... $} に対して異なる2つの確率分布 $ p $ = { $ p_{1}, p_{2}, ... $} と$ q $ = {$ q_{1}, q_{2}, ... $}を比較する場合を考えます。
イメージで言えば、コインの面と裏の出る確率を{1/2, 1/2} とする確率分布と、{2/3, 1/3}とする確率分布を比較するような作業です。
$ X = x_{i} $ が観測された時の自己情報量は、確率分布が $ p $ の場合には、$ \gamma_{p} = -k_{\mathrm{B}} \log p_{i} $ , 確率分布が $ q $ の場合には、$ \gamma_{q} = -k_{\mathrm{B}} \log q_{i} $ です。
この時、 $ \gamma_{p} - \gamma_{q} $ を確率分布 $ p $ について平均して、
$$ D(p|q) \equiv k_{\mathrm{B}} \sum_{i}p_{i} \log \frac{p_{i}}{q_{i}} \tag{4-1}$$
とします。これを、$ q $ に対する $ p $ のKullback-Leiblerダイバージェンス (KLダイバージェンス) と呼びます。ここでも、$ \log (x ) \leq x - 1 $ を用いて、
$$ D(p|q) = - k_{\mathrm{B}} \sum_{i}p_{i} \log \frac{q_{i}}{p_{i}} \geq -k_{\mathrm{B}}\sum_{i}p_{i}\Bigl(\frac{q_{i}}{p_{i}} - 1 \Bigl) \tag{4-2}$$
とすることができるので、等号成立条件 $ p $ = $ q $ の時にのみ、$ D(p|q) = 0 $ となり、それ以外では、正の量をとる値として振舞うことがわかります。
また、KLダイバージェンスの意味がわかりやすいように、確率分布$ p $ と $ q $ について、 $ p $ が $ q $ からわずかにずれている場合、つまり
$$ p_{j} = q_{j} + \delta q_{j}$$ が成り立つ時を考えます。この時、 $ D(p|q) $は、
\begin{eqnarray}
D(p|q) &=& k_{\mathrm{B}}\sum_{j}(q_{j} + \delta q_{j})\log \frac{q_{j} + \delta q_{j}}{q_{j}} \\
&=& k_{\mathrm{B}}\sum_{j}(q_{j} + \delta q_{j})\log \Bigl(1 + \frac{\delta q_{j}}{q_{j}}\Bigl) \\
&\simeq& k_{\mathrm{B}}\sum_{j}(q_{j} + \delta q_{j})\frac{\delta q_{j}}{q_{j}} \\
&\simeq& k_{\mathrm{B}}\sum_{j}\delta q_{j}
\end{eqnarray}
となります。これはまさに、それぞれのずれ{ $ \delta q_{j} $ } の総和に他ならないので、$ q $ に対する $ p $ の距離と言えます。ただ、$ D(p|q) \neq D(q|p) $ より、通常の意味の距離ではありません。だからこそダイバージェンスと呼ばれます。「$ q $ に対する $ p $ の」という枕詞をつけないと意思疎通ができないことがあるので、このあたりの言葉遣いは丁寧に行う必要があります。
終わりに
最後までご覧いただきありがとうございました !
参考文献
大学の物理数学の講義ノート