制約付き最適化から導く確率論の統一的理解
1. ニュートン法から確率論へ
1.1 ニュートン法の基本枠組み
非線形方程式 $F(x) = 0$ を解くニュートン法は次式で表される:
x_{k+1} = x_k - [F'(x_k)]^{-1}F(x_k)
最適化問題 $\min f(x)$ に適用すると:
x_{k+1} = x_k - [\nabla^2 f(x_k)]^{-1}\nabla f(x_k)
1.2 制約付き最適化への拡張
制約付き問題 $\min f(x)$ s.t. $g(x) = 0$ では、KKT系にニュートン法を適用する:
\begin{bmatrix}
\nabla^2_{xx} L & \nabla g^T \\
\nabla g & 0
\end{bmatrix}
\begin{bmatrix}
\Delta x \\
\Delta \lambda
\end{bmatrix} =
-\begin{bmatrix}
\nabla_x L \\
g(x)
\end{bmatrix}
ここで、$L(x,\lambda) = f(x) + \lambda^T g(x)$ はラグランジュ関数である。
1.3 随伴変数法との関係
制約付き最適化におけるラグランジュ乗数 $\lambda$ は、随伴変数法における随伴変数として機能する。この観点から、
ニュートン法 ≈ 制約付き最適化 ≈ 随伴変数法(密接に関連)
という対応が見通しを与える。この統一的理解を確率論に適用することで、ベイズの定理が制約付き最適化の自然な帰結として導出される。
基本仮定: 本稿では連続確率変数を扱い、全ての確率密度関数は $L^1$ 可積分性を満たすものとする。基準測度を $\mu$ とし、確率測度の密度は $p=\frac{d\mathbb P}{d\mu}$ と書く。離散確率変数への拡張は、積分を総和に置き換えることで可能である。
2. 随伴変数法の基本枠組み
2.1 制約付き最適化問題
\begin{align}
\min_{u,p} \quad & J(u, p) \\
\text{s.t.} \quad & \mathbf{F}(u, p) = \mathbf{0}
\end{align}
2.2 陰関数定理
制約条件により、状態変数 $u$ は設計変数 $p$ の陰関数として定義される:
u = u(p) \quad \text{($\mathbf{F}(u, p) = \mathbf{0}$ により陰的に定義)}
陰関数微分:
\frac{du}{dp} = -\left(\frac{\partial \mathbf{F}}{\partial u}\right)^{-1} \frac{\partial \mathbf{F}}{\partial p}
2.3 拡張ラグランジアンと随伴方程式
拡張ラグランジアン:
\mathcal{L}(u, p, \boldsymbol{\lambda}) = J(u, p) + \boldsymbol{\lambda}^T \mathbf{F}(u, p)
KKT条件(ニュートン法の制約付き最適化と同一):
\begin{align}
\frac{\partial \mathcal{L}}{\partial u} &= \frac{\partial J}{\partial u} + \boldsymbol{\lambda}^T \frac{\partial \mathbf{F}}{\partial u} = 0 \quad \text{(随伴方程式)} \\
\frac{\partial \mathcal{L}}{\partial p} &= \frac{\partial J}{\partial p} + \boldsymbol{\lambda}^T \frac{\partial \mathbf{F}}{\partial p} = 0 \\
\mathbf{F}(u, p) &= \mathbf{0}
\end{align}
感度公式(一般形):
\frac{dJ}{dp} = \frac{\partial J}{\partial p} + \boldsymbol{\lambda}^T \frac{\partial \mathbf{F}}{\partial p}
ここで $\boldsymbol\lambda$ は随伴方程式 $,\frac{\partial J}{\partial u} + \boldsymbol\lambda^T\frac{\partial \mathbf F}{\partial u}=0,$ を満たす。$J$ が $p$ に陽に依存しない場合($\partial J/\partial p=0$)に限り、簡約形 $,\frac{dJ}{dp}=\boldsymbol{\lambda}^T\frac{\partial \mathbf{F}}{\partial p},$ を得る。
3. 情報幾何学的双対構造
3.1 統計多様体上の射影
確率分布空間における制約付き最適化は、統計多様体上の射影操作として理解される:
\Pi: \mathcal{M}_{\text{prior}} \to \mathcal{M}_{\text{constrained}}
3.2 双対平坦構造
- e-座標系(指数座標):原空間(状態変数)
- m-座標系(混合座標):双対空間(随伴変数)
- 双対接続:制約条件による陰関数関係
4. 条件付き確率の導出
4.1 制約付きKL最小化
前提(測度と可積分性):
連続一様を扱うため、$X=[a,b]$ を有限測度とし、$p\log p \in L^1$(有限エントロピー)を仮定する。
基準分布の設定:
一様分布 $q(x,y) = \frac{1}{|X| \cdot |Y|}$ を基準分布とする。ここで、$|X|, |Y|$ は各定義域の測度である。
KLダイバージェンス最小化問題:
\begin{align}
\min_{p(x,y)} \quad & D_{KL}[p \| q] = \int\int p(x,y) \log p(x,y) \, dx \, dy - \int\int p(x,y) \log q(x,y) \, dx \, dy \\
\text{s.t.} \quad & \mathbf{h}[p] = \begin{pmatrix} \int p(x,y) dx - p_Y(y) \\ \int\int p(x,y) dx dy - 1 \end{pmatrix} = \mathbf{0}
\end{align}
$q(x,y)$ が定数であるため、第2項は制約条件により定数となる。したがって、以下の簡約形と等価:
\min_{p(x,y)} \quad J[p] = \int\int p(x,y) \log p(x,y) \, dx \, dy
4.2 拡張ラグランジアンと汎関数微分
関数空間の設定:
状態変数 $p(x,y)$ は確率測度空間
\mathcal{P} = \left\{p \in L^1(\mathbb{R}^2) : p \geq 0, \int\int p(x,y) dx dy = 1\right\}
上で定義される。
拡張ラグランジアン:
\mathcal{L}[p, \boldsymbol{\mu}] = \int\int p(x,y) \log p(x,y) \, dx \, dy + \int \mu_1(y) \left[ \int p(x,y) dx - p_Y(y) \right] dy + \mu_2 \left[ \int\int p(x,y) dx dy - 1 \right]
4.3 汎関数微分による随伴方程式
汎関数微分の定義:
汎関数 $F[p]$ のガトー微分:
\frac{\delta F}{\delta p}[h] = \lim_{\epsilon \to 0} \frac{F[p + \epsilon h] - F[p]}{\epsilon}
目的関数の汎関数微分:
\frac{\delta}{\delta p} \int\int p(x,y) \log p(x,y) \, dx \, dy = \log p(x,y) + 1
随伴方程式:
\frac{\delta \mathcal{L}}{\delta p(x,y)} = \log p(x,y) + 1 + \mu_1(y) + \mu_2 = 0
解:
p^*(x,y) = \exp(-\mu_1(y) - \mu_2 - 1)
4.4 制約条件の適用
制約 $h_1 = 0$ から:
\int \exp(-\mu_1(y) - \mu_2 - 1) \, dx = p_Y(y)
$x \in [a,b]$ とすると:
\exp(-\mu_1(y) - \mu_2 - 1) = \frac{p_Y(y)}{b-a}
最終解:
p^*(x,y) = \frac{p_Y(y)}{b-a}
4.5 条件付き確率(本章の結論の意味)
p(x\mid y) = \frac{p^*(x,y)}{p_Y(y)} = \frac{1}{b-a}
これは与えた制約(周辺 $p_Y$ と一様基準、有限測度のもと)での最大エントロピー解であり、条件付き確率の一般公式そのものを導いたわけではない点に注意する。
5. ベイズの定理の導出
5.1 制約付きKL最小化
データ観測の設定:
観測データ $D$ は固定された定数として扱い、$p(D) = \int p(D\mid\theta) , p(\theta) , d\theta$ は正規化定数である。
基準分布: 事前分布 $p(\theta)$ を基準分布とする。
制約構造の再定式化:
線形独立性を保証するため、補助変数 $z = p(\theta, D)$ を導入:
\begin{align}
\min_{p(\theta\mid D)} \quad & D_{KL}[p(\theta\mid D) \| p(\theta)] = \int p(\theta\mid D) \log \frac{p(\theta\mid D)}{p(\theta)} \, d\theta \\
\text{s.t.} \quad & \mathbf{g}[p, z] = \begin{pmatrix} \int p(\theta\mid D) \, d\theta - 1 \\ z - p(D\mid\theta) \, p(\theta) \end{pmatrix} = \mathbf{0}
\end{align}
5.2 変分自由エネルギー(ELBO)の最小化による導出
関数空間:
事後分布 $p(\theta\mid D)$ は条件付き確率測度空間
\mathcal{P}_{D} = \left\{p(\cdot\mid D) \in L^1(\Theta) : p(\theta\mid D) \geq 0, \int p(\theta\mid D) d\theta = 1\right\}
上で定義される。
目的関数(自由エネルギー):
\mathcal F(q) = D_{KL}\big(q\,\|\,p(\theta)\big) - \mathbb E_q\big[\log p(D\mid\theta)\big]
を $\int q=1$ のもとで最小化する。対応するラグランジアンは
\tilde{\mathcal L}[q,\tau] = \int q\log q\,d\theta - \int q\log p(\theta)\,d\theta - \int q\log p(D\mid\theta)\,d\theta + \tau\Big(\int q\,d\theta - 1\Big)
であり、汎関数微分から
\frac{\delta \tilde{\mathcal L}}{\delta q} = \log q - \log p(\theta) - \log p(D\mid\theta) + 1 + \tau = 0
より
q^*(\theta) \propto p(\theta)\,p(D\mid\theta)
正規化して
p(\theta\mid D) = \frac{p(D\mid\theta)\,p(\theta)}{p(D)}
を得る。
5.3 ELBO最小化の汎関数微分(再掲)
上の導出に示したように、最適性条件は
\log q = \log p(\theta) + \log p(D\mid\theta) - 1 - \tau
に等価であり、解は $q^*(\theta) \propto p(\theta),p(D\mid\theta)$ である。
5.4 まとめ
上記の正規化により
p(\theta\mid D) = \frac{p(D\mid\theta)\, p(\theta)}{p(D)}
が得られ、これがベイズの定理である。
6. 統一的理解:情報幾何学的解釈
6.1 統計多様体上の射影構造
e-m双対座標系:
情報幾何学において、統計多様体は以下の双対平坦構造を持つ:
- e-座標系(自然パラメータ): $\theta$
- m-座標系(期待値パラメータ): $\eta = \mathbb E_\theta[t(X)] = \nabla_\theta \psi(\theta)$(ルジャンドル双対)
ベイズ更新の幾何学的解釈:
ベイズ更新 $p(\theta) \to p(\theta\mid D)$ は、条件に応じて統計多様体上のe-射影として理解される:
p(\theta\mid D) = \arg\min_{q} D_{KL}[q \\| p(\theta)] \quad \text{s.t.} \quad E_q[\log p(D\mid\theta)] = \log p(D)
6.2 e-射影とm-射影の統一的理解
双対射影の分類(Amari, 2016):
- e-射影: $D_{KL}[q | p]$ の最小化(Forward KL、ベイズ更新)
- m-射影: $D_{KL}[p | q]$ の最小化(Reverse KL、変分ベイズ近似)
射影操作の統一:
| 概念 | 制約ベクトル | 射影タイプ | 結果 |
|---|---|---|---|
| 条件付き確率 | $\mathbf{h}[p] = \mathbf{0}$ | 周辺化射影 | $p(x\mid y) = \frac{p(x,y)}{p_Y(y)}$ |
| ベイズの定理 | — | e-射影 | $p(\theta\mid D) = \frac{p(D\mid\theta), p(\theta)}{p(D)}$ |
| 変分ベイズ | $q \in \mathcal{Q}$ | m-射影 | $q^* = \arg\min D_{KL}[q | p(\theta\mid D)]$ |
6.3 統一的定式化
確率論の基本概念は以下の統一的定式化で表現される:
\text{確率論の基本概念} = \arg\min_{p} \left\{ D_{KL}[p \| q] : \mathbf{制約}[p] = \mathbf{0} \right\}
7. ニュートン法との統一的理解
最適化理論としての確率論:
| ニュートン法の構成要素 | 確率論での対応 |
|---|---|
| 目的関数 $f(x)$ | KLダイバージェンス $D_{KL}[p | q]$ |
| 制約条件 $g(x) = 0$ | 確率の公理・条件付け |
| ラグランジュ乗数 $\lambda$ | 随伴変数(感度) |
| 最適解 $x^*$ | 確率分布 $p^*(x)$ |
| ヘッセ行列 $\nabla^2 f$ | フィッシャー情報行列 $G(\theta)$ |
注:対応の厳密化には前提が必要である。例えば、$f$ が負対数尤度で、正則性条件のもとでその期待ヘッセ行列がフィッシャー情報に一致する場合などである。
📋 コラム:EMアルゴリズムとの関係
EMアルゴリズムの情報幾何学的解釈
EMアルゴリズムは、e-射影とm-射影の交互反復として理解される。
隠れ変数モデル:
p(D, Z \mid \theta) = p(D \mid Z, \theta) \, p(Z \mid \theta)
目的:
\max_\theta \log p(D \mid \theta) = \max_\theta \log \int p(D, Z \mid \theta) \, dZ
E-stepとM-stepの双対射影解釈
E-step(m-射影):
q^{(k+1)}(Z) = \arg\min_{q \in \mathcal{Q}} D_{KL}[q(Z) \\| p(Z\mid D, \theta^{(k)})]
M-step(e-射影):
\theta^{(k+1)} = \arg\max_\theta E_{q^{(k+1)}}[\log p(D, Z \mid \theta)]
アルゴリズムの分類
| アルゴリズム | Step 1 | Step 2 | 特徴 |
|---|---|---|---|
| EM | m-射影 | e-射影 | 隠れ変数・最尤推定 |
| 変分ベイズ | m-射影 | m-射影 | ベイズ近似推論 |
| EP | e-射影 | m-射影 | 局所近似の伝播 |
| ベイズ更新 | - | e-射影 | 厳密事後分布 |
収束性の保証
単調性定理:
e/m-射影の交互反復は、目的関数の単調増加を保証する:
\ell(\theta^{(k+1)}) \geq \ell(\theta^{(k)})
各射影ステップは統計多様体上での最短距離移動であり、収束点は双対平坦構造の交点として特徴づけられる。