$\boldsymbol{X}_t$を時刻$t \in[0, T]$に依存した$d$次元確率変数族(確率過程)とし、$\boldsymbol{X}_t$の時間発展が確率微分方程式
d \boldsymbol{X}_t = \boldsymbol{f}(\boldsymbol{X}_t, t)dt + \mathbf{G}(\boldsymbol{X}_t, t) d \boldsymbol{W}_t
に従うとする。ただし、$\boldsymbol{W}_t$は各次元が独立な$d$次元のWiener過程であり、
\begin{eqnarray}
&&\boldsymbol{f}: \mathbb{R}^d \times \mathbb{R} \rightarrow \mathbb{R}^d \\
&&\mathbf{G}: \mathbb{R}^d \times \mathbb{R}\rightarrow \mathbb{R}^d \times \mathbb{R}^d
\end{eqnarray}
は十分滑らかで積分可能な非確率的な関数とする。
$\boldsymbol{f}(\boldsymbol{X}_t, t)dt$は確率変数$\boldsymbol{X}_t$の各点の非確率的な時間変化を表し、$\mathbf{G}(\boldsymbol{X}_t, t) d \boldsymbol{W}_t$は$dt$の期間で$\boldsymbol{X}_t$に加わる確率的なノイズを表している。
各時点$t$における$\boldsymbol{X}_t$の$\mathbb{R}^d$における確率密度関数を$p(x, t)$とする。$p(x, t)$が満たす偏微分方程式を導く。
十分滑らかで積分可能、かつ十分な階数の偏導関数まで滑らかで積分可能な任意の関数$I: \mathbb{R}^d \rightarrow \mathbb{R}$を想定する。$I(\boldsymbol{X}_t)$は一次元の確率過程であり、$Y_t = I(\boldsymbol{X}_t)$とする。
時刻$t$における$Y_t$の期待値は
E[Y_t] = \int_{\boldsymbol{x} \in \mathbb{R}^d} I(\boldsymbol{x}) p(\boldsymbol{x}, t) d\boldsymbol{x}
と表される。この$Y_t$の期待値$E[Y_t]$の時間変化を考える。上式での期待値の表現を$t$で微分して、
\frac{d}{dt} E[Y_t] = \int_{\boldsymbol{x} \in \mathbb{R}^d} I(\boldsymbol{x}) \frac{\partial p(\boldsymbol{x}, t)}{\partial t} d\boldsymbol{x}
となる。これは確率密度関数の時間変化から$E[Y_t]$の変化を記述している。
一方で、$Y_t$自体の時間変化から$E[Y_t]$の変化を捉えることも可能である。
$Y_t = I(\boldsymbol{X}_t)$より伊藤の公式から
\begin{eqnarray}
dY_t &=& \sum_{j=1}^{d} \frac{\partial I}{\partial x_j}(\boldsymbol{X}_t) dX_{t, j}+ \frac{1}{2} \sum_{1 \le i,j \le d}\frac{\partial^2 I}{\partial x_i \partial x_j} (\boldsymbol{X}_t) dX_{t, i} dX_{t, j} \\
&=& \nabla I(\boldsymbol{X}_t)^T d\boldsymbol{X}_t + \frac{1}{2} d\boldsymbol{X}_t ^T \operatorname{Hess}[I](\boldsymbol{X}_t) d\boldsymbol{X}_t
\end{eqnarray}
となる。ただし、$\operatorname{Hess}[I]$は$I$のヘッセ行列であり、上付きの添え字$T$は転置を表す。
元の$\boldsymbol{X}_t$の確率微分方程式
d \boldsymbol{X}_t = \boldsymbol{f}(\boldsymbol{X}_t, t)dt + \mathbf{G}(\boldsymbol{X}_t, t) d \boldsymbol{W}_t
より、
\begin{eqnarray}
dY_t &=& \nabla I(\boldsymbol{X}_t)^T (\boldsymbol{f}(\boldsymbol{X}_t, t)dt + \mathbf{G}(\boldsymbol{X}_t, t) d \boldsymbol{W}_t) \\
&& + \frac{1}{2}(\boldsymbol{f}(\boldsymbol{X}_t, t)dt + \mathbf{G}(\boldsymbol{X}_t, t) d \boldsymbol{W}_t)^T \operatorname{Hess}[I](\boldsymbol{X}_t) (\boldsymbol{f}(\boldsymbol{X}_t, t)dt + \mathbf{G}(\boldsymbol{X}_t, t) d \boldsymbol{W}_t) \\
&=& \nabla I(\boldsymbol{X}_t)^T \boldsymbol{f}(\boldsymbol{X}_t, t)dt + \nabla I(\boldsymbol{X}_t)^T \mathbf{G}(\boldsymbol{X}_t, t) d \boldsymbol{W}_t \\
&& + \frac{1}{2} d \boldsymbol{W}_t ^T \{ \mathbf{G}(\boldsymbol{X}_t, t)^T \operatorname{Hess}[I](\boldsymbol{X}_t) \mathbf{G}(\boldsymbol{X}_t, t) \} d \boldsymbol{W}_t
\end{eqnarray}
となる。伊藤のルールの$dt^2=0$, $dt d W_{t, j}=0$用いて一部の項を消去している。
時刻$t$からのウィーナー過程の微小差分の$d W_{t, j}$は時刻$t$における確率変数の$\boldsymbol{X}_t$ とは確率変数として独立であり、かつ、伊藤のルールより
d W_{t, i} d W_{t, j} = \delta_{i,j} dt
であるから、
\begin{eqnarray}
&& d \boldsymbol{W}_t ^T \{ \mathbf{G}(\boldsymbol{X}_t, t)^T \operatorname{Hess}[I](\boldsymbol{X}_t) \mathbf{G}(\boldsymbol{X}_t, t) \} d \boldsymbol{W}_t \\
&=& \sum_{0 \le i,j \le d} \left\{\mathbf{G}(\boldsymbol{X}_t, t)^T \operatorname{Hess}[I](\boldsymbol{X}_t) \mathbf{G}(\boldsymbol{X}_t, t) (\boldsymbol{X}_t)\right\}_{(i,j)} d W_{t, i} d W_{t, j} \\
&=& \operatorname{tr}(E[\mathbf{G}(\boldsymbol{X}_t, t)^T \operatorname{Hess}[I](\boldsymbol{X}_t) \mathbf{G}(\boldsymbol{X}_t, t)])
\end{eqnarray}
となる。ただし、$\operatorname{tr}$は行列のトレース。
従って、
E[dY_t] = \left \{E\left[\nabla I(\boldsymbol{X}_t)^T \boldsymbol{f}(\boldsymbol{X}_t, t) + \frac{1}{2} \operatorname{tr}\left\{\mathbf{G}(\boldsymbol{X}_t, t)^T \operatorname{Hess}[I](\boldsymbol{X}_t) \mathbf{G}(\boldsymbol{X}_t, t)\right\}\right] \right\} dt
であり、$Y_t$の期待値の時間微分の形で表すと、
\begin{eqnarray}
\frac{d}{dt} E[Y_t] &=& E\left[\nabla I(\boldsymbol{X}_t)^T \boldsymbol{f}(\boldsymbol{X}_t, t) + \frac{1}{2} \operatorname{tr}\left\{ \mathbf{G}(\boldsymbol{X}_t, t)^T \operatorname{Hess}[I](\boldsymbol{X}_t) \mathbf{G}(\boldsymbol{X}_t, t) \right\}\right] \\
&=& \int_{\boldsymbol{x} \in \mathbb{R}^d} \left( \nabla I(\boldsymbol{x})^T \boldsymbol{f}(\boldsymbol{x}, t) + \frac{1}{2} \operatorname{tr}\left\{ \mathbf{G}(\boldsymbol{x}, t)^T \operatorname{Hess}[I](\boldsymbol{x}) \mathbf{G}(\boldsymbol{x}, t) \right\} \right) p(\boldsymbol{x}, t) d \boldsymbol{x}
\end{eqnarray}
となる。
部分積分により、この積分の表現をさらに変形する。
まずは第一項は、
\begin{eqnarray}
\int_{\boldsymbol{x} \in \mathbb{R}^d} \left( \nabla I(\boldsymbol{x})^T \boldsymbol{f}(\boldsymbol{x}, t) \right) p(\boldsymbol{x}, t) d \boldsymbol{x} &=& \sum_{j=1}^{d} \left(\int_{\boldsymbol{x} \in \mathbb{R}^d} \frac{\partial I (\boldsymbol{x})}{\partial x_j} f_j(\boldsymbol{x}, t) p(\boldsymbol{x}, t) d \boldsymbol{x} \right) \\
&=& \sum_{j=1}^{d} \left(- \int_{\boldsymbol{x} \in \mathbb{R}^d} I (\boldsymbol{x}) \frac{\partial (f_j(\boldsymbol{x}, t) p(\boldsymbol{x}, t))}{\partial x_j} d \boldsymbol{x} \right) \\
&=& - \int_{\boldsymbol{x} \in \mathbb{R}^d} I (\boldsymbol{x}) \left( \sum_{j=1}^{d} \frac{\partial (f_j(\boldsymbol{x}, t) p(\boldsymbol{x}, t))}{\partial x_j} \right) d \boldsymbol{x} \\
&=& - \int_{\boldsymbol{x} \in \mathbb{R}^d} I (\boldsymbol{x}) \nabla\cdot(p(\boldsymbol{x}, t) \boldsymbol{f}(\boldsymbol{x}, t)) d \boldsymbol{x}
\end{eqnarray}
と変形できる。$I$は積分可能なので無限遠で$0$に収束するため、部分積分で端点の項は$0$になる。
次に第二項について。行列の要素を
\begin{eqnarray}
\{\mathbf{G}(\boldsymbol{x}, t)\}_{(i,j)}&=&g_{i,j}(\boldsymbol{x}, t)\\
\{\operatorname{Hess}[I](\boldsymbol{x})\}_{(i,j)}&=&h_{i,j}(\boldsymbol{x})\\
\end{eqnarray}
と表せば、
\operatorname{tr}\left\{ \mathbf{G}(\boldsymbol{x}, t)^T \operatorname{Hess}[I](\boldsymbol{x}) \mathbf{G}(\boldsymbol{x}, t) \right\} = \sum_{j=1}^{d} \sum_{k=1}^{d} \sum_{l=1}^{d} h_{k,l}(\boldsymbol{x}) g_{k,j}(\boldsymbol{x}, t) g_{l,j}(\boldsymbol{x}, t)
であるので、
\begin{eqnarray}
&& \int_{\boldsymbol{x} \in \mathbb{R}^d} \left( \operatorname{tr}\left\{ \mathbf{G}(\boldsymbol{x}, t)^T \operatorname{Hess}[I](\boldsymbol{x}) \mathbf{G}(\boldsymbol{x}, t) \right\} \right) p(\boldsymbol{x}, t) d \boldsymbol{x} \\
&=& \sum_{j=1}^{d} \sum_{k=1}^{d} \sum_{l=1}^{d} \int_{\boldsymbol{x} \in \mathbb{R}^d} h_{k,l}(\boldsymbol{x}) g_{k,j}(\boldsymbol{x}, t) g_{l,j}(\boldsymbol{x}, t) p(\boldsymbol{x}, t) d \boldsymbol{x} \\
&=& \sum_{j=1}^{d} \sum_{k=1}^{d} \sum_{l=1}^{d} \int_{\boldsymbol{x} \in \mathbb{R}^d} \frac{\partial^2 I (\boldsymbol{x})}{\partial x_k \partial x_l} g_{k,j}(\boldsymbol{x}, t) g_{l,j}(\boldsymbol{x}, t) p(\boldsymbol{x}, t) d \boldsymbol{x} \\
\end{eqnarray}
となる。部分積分を2回適用して、
\begin{eqnarray}
&& \sum_{j=1}^{d} \sum_{k=1}^{d} \sum_{l=1}^{d} \int_{\boldsymbol{x} \in \mathbb{R}^d} \frac{\partial^2 I (\boldsymbol{x})}{\partial x_k \partial x_l} g_{k,j}(\boldsymbol{x}, t) g_{l,j}(\boldsymbol{x}, t) p(\boldsymbol{x}, t) d \boldsymbol{x} \\
&=& \sum_{j=1}^{d} \sum_{k=1}^{d} \sum_{l=1}^{d} \int_{\boldsymbol{x} \in \mathbb{R}^d} - \frac{\partial I (\boldsymbol{x})}{\partial x_l} \frac{ \partial \left( g_{k,j}(\boldsymbol{x}, t) g_{l,j}(\boldsymbol{x}, t) p(\boldsymbol{x}, t) \right)}{\partial x_k} d \boldsymbol{x} \\
&=& \sum_{j=1}^{d} \sum_{k=1}^{d} \sum_{l=1}^{d} \int_{\boldsymbol{x} \in \mathbb{R}^d} I (\boldsymbol{x}) \frac{ \partial^2 \left( g_{k,j}(\boldsymbol{x}, t) g_{l,j}(\boldsymbol{x}, t) p(\boldsymbol{x}, t) \right)}{\partial x_k \partial x_l} d \boldsymbol{x} \\
&=& \int_{\boldsymbol{x} \in \mathbb{R}^d} I (\boldsymbol{x}) \sum_{j=1}^{d} \sum_{k=1}^{d} \sum_{l=1}^{d} \left( \frac{ \partial^2 \left( g_{k,j}(\boldsymbol{x}, t) g_{l,j}(\boldsymbol{x}, t) p(\boldsymbol{x}, t) \right)}{\partial x_k \partial x_l} \right)d \boldsymbol{x} \\
&=& \int_{\boldsymbol{x} \in \mathbb{R}^d} I (\boldsymbol{x}) \sum_{k=1}^{d} \sum_{l=1}^{d} \left( \frac{ \partial^2}{\partial x_k \partial x_l} \left( p(\boldsymbol{x}, t) \sum_{j=1}^{d} g_{k,j}(\boldsymbol{x}, t) g_{l,j}(\boldsymbol{x}, t) \right)\right)d \boldsymbol{x} \\
&=& \int_{\boldsymbol{x} \in \mathbb{R}^d} I (\boldsymbol{x}) \sum_{k=1}^{d} \sum_{l=1}^{d} \left( \frac{ \partial^2}{\partial x_k \partial x_l} \left( p(\boldsymbol{x}, t) \{\mathbf{G}(\boldsymbol{x}, t) \mathbf{G}(\boldsymbol{x}, t)^T \}_{(k, l)} \right)\right)d \boldsymbol{x} \\
\end{eqnarray}
となる。行列の各要素の関数の偏微分と総和を$\nabla$演算子ベクトルと行列の積のように記述して、
\begin{eqnarray}
&& \int_{\boldsymbol{x} \in \mathbb{R}^d} I (\boldsymbol{x}) \sum_{k=1}^{d} \sum_{l=1}^{d} \left( \frac{ \partial^2}{\partial x_k \partial x_l} \left( p(\boldsymbol{x}, t) \{\mathbf{G}(\boldsymbol{x}, t) \mathbf{G}(\boldsymbol{x}, t)^T \}_{(k, l)} \right)\right)d \boldsymbol{x} \\
&=& \int_{\boldsymbol{x} \in \mathbb{R}^d} I (\boldsymbol{x}) \left( \nabla^T \left( p(\boldsymbol{x}, t) \{\mathbf{G}(\boldsymbol{x}, t) \mathbf{G}(\boldsymbol{x}, t)^T \} \right)\nabla\right)d \boldsymbol{x}
\end{eqnarray}
と表現できる。(わかりづらいが、右の$\nabla$は列ベクトルとして左の行列に行列積の形で作用する)
従って、
\begin{eqnarray}
\frac{d}{dt} E[\boldsymbol{Y}_t] = \int_{\boldsymbol{x} \in \mathbb{R}^d} I (\boldsymbol{x}) \left\{ - \nabla\cdot(p(\boldsymbol{x}, t) \boldsymbol{f}(\boldsymbol{x}, t)) + \frac{1}{2} \nabla^T \left( p(\boldsymbol{x}, t) \{\mathbf{G}(\boldsymbol{x}, t) \mathbf{G}(\boldsymbol{x}, t)^T \} \right)\nabla\right\} d\boldsymbol{x}
\end{eqnarray}
となる。先の議論から
\frac{d}{dt} E[Y_t] = \int_{\boldsymbol{x} \in \mathbb{R}^d} I(\boldsymbol{x}) \frac{\partial p(\boldsymbol{x}, t)}{\partial t} d\boldsymbol{x}
でもあったため、任意の関数$I$に対して、
\int_{\boldsymbol{x} \in \mathbb{R}^d} I (\boldsymbol{x}) \left\{ - \nabla\cdot(p(\boldsymbol{x}, t) \boldsymbol{f}(\boldsymbol{x}, t)) + \frac{1}{2} \nabla^T \left( p(\boldsymbol{x}, t) \{\mathbf{G}(\boldsymbol{x}, t) \mathbf{G}(\boldsymbol{x}, t)^T \} \right)\nabla - \frac{\partial p(\boldsymbol{x}, t)}{\partial t} \right\} d\boldsymbol{x} = 0
が成り立つ。
従って、
\frac{\partial p(\boldsymbol{x}, t)}{\partial t} = - \nabla\cdot(p(\boldsymbol{x}, t) \boldsymbol{f}(\boldsymbol{x}, t)) + \frac{1}{2} \nabla^T \left( p(\boldsymbol{x}, t) \{\mathbf{G}(\boldsymbol{x}, t) \mathbf{G}(\boldsymbol{x}, t)^T \} \right)\nabla
となる。
これが、確率微分方程式$d \boldsymbol{X}_t = \boldsymbol{f}(\boldsymbol{X}_t, t)dt + \mathbf{G}(\boldsymbol{X}_t, t) d \boldsymbol{W}_t$の時刻$t$の確率密度関数が従う偏微分方程式(Fokker–Planck方程式)である。