イェンゼンの不等式
- 主張
凸関数 $f : \mathbb{R} \to \mathbb{R}$ と可積分関数 $g : \mathbb{R} \to \mathbb{R}$ に対して以下の不等式が成り立つ.
$$ f(\mathbb{E}[g(x)]) \leq \mathbb{E}[f \circ g(x)] $$ - 等号成立条件
$f$ が狭義凸であるとき, 等号成立条件は $g(\cdot) = \mathbb{E}[g(x)] \quad a.s.$ である.
KLダイバージェンス
-
定義
確率密度関数 $p(x), q(x)$ に対して, KLダイバージェンス $KL(p || q)$ は以下で定義される.
$$ KL(p || q) = -\int_{\mathbb{R}} p(x) \log \left( \frac{q(x)}{p(x)} \right) dx $$
ただし $p(x) = 0$ のときは $p(x) \log \left( \frac{q(x)}{p(x)} \right) = 0$ とする. -
性質
KLダイバージェンスは以下の性質が成り立つ.- 任意の確率密度関数 $p, q$ に対して,
$$ KL(p || q) \geq 0 $$ - $KL(p || q) = 0 \Leftrightarrow p(x) = q(x) \quad a.s.$
- 任意の確率密度関数 $p, q$ に対して,
-
証明
イェンゼンの不等式を用いる. $-\log x$ が凸であることから $g : \mathbb{R} \to \mathbb{R}$ に対して,
$$ -\log \left( \int_\mathbb{R} g(x) p(x) dx \right) \leq - \int_\mathbb{R} p(x) \log g(x) dx $$
が成り立つ. ここから
g(x) =
\left\{
\begin{array}{l}
\frac{q(x)}{p(x)} & (p(x) \neq 0) \\
1 & (p(x) = 0)
\end{array}
\right.
として $g$ を定義し, $A := \{ x \in \mathbb{R} \mid p(x) = 0\}, B := \{ x \in \mathbb{R} \mid p(x) \neq 0 \}$ を定義すると,
\begin{align*}
KL(p || q) &= -\int_\mathbb{R} p(x) \log \left( \frac{q(x)}{p(x)} \right) dx \\
&\geq -\log \int_\mathbb{R} \frac{q(x)}{p(x)} p(x) dx \\
&\geq -\log \int_B q(x) dx \geq 0
\end{align*}
より $KL(p || q) \geq 0$ がいえた. ここで $-\log x$ は狭義凸よりイェンゼンの不等式の等号成立条件は $g(\cdot) \equiv \mathbb{E} [g(x)] \quad a.s.$ であったことから,
\begin{align*}
KL(p || q) = 0 &\Leftrightarrow g(\cdot) \equiv \mathbb{E}[g(x)] \quad a.s. \\
&\Leftrightarrow \frac{q(x)}{p(x)} = 1 \quad a.s. \\
&\Leftrightarrow p(x) = q(x) \quad a.s.
\end{align*}