ニュートン法
ニュートン法では、テイラー展開を用いて、$ f $ の局所的な最小値を見つけるための反復式を導出します。具体的には、二次の項までを考慮して、次のように反復式を設定します。
\mathbf{x}_{\text{new}} = \mathbf{x} - [\nabla^2 f(\mathbf{x})]^{-1} \nabla f(\mathbf{x})
この式は、$ \nabla f(\mathbf{x}) = \mathbf{0} $ となる $ \mathbf{x} $ を見つけることを目的としています。この点が局所的な最小値となるためには、その点でのヘッセ行列が正定値であることが必要十分条件となります。ヘッセ行列が正定値でない場合、その点は鞍点や局所的な最大値である可能性があります。また、ヘッセ行列が特異(非可逆)な場合、ニュートン法の更新式は定義できません。
ヘッセ行列の逆行列と分散共分散行列
二次形式で表される関数の等高線は楕円体となり、その形状はヘッセ行列 $ \nabla^2 f(\mathbf{x}) $ の固有値と固有ベクトルによって決定されます。具体的には、固有ベクトルが楕円体の主軸の方向を、固有値の逆数が各軸方向の長さを決定します。このとき、ヘッセ行列の逆行列 $ (\nabla^2 f(\mathbf{x}))^{-1} $ は、確率分布における分散共分散行列と同様の役割を果たします。
多変量ガウス分布との関係
1. 関数の二次形式での近似
関数 $ f(\mathbf{x}) $ のある点 $ \mathbf{a} $ でのテイラー展開は以下のように表されます(ここでは2次まで展開):
f(\mathbf{x}) \approx f(\mathbf{a}) + (\mathbf{x} - \mathbf{a})^T \nabla f(\mathbf{a}) + \frac{1}{2} (\mathbf{x} - \mathbf{a})^T \mathbf{H} (\mathbf{x} - \mathbf{a})
ここで、$ \mathbf{H} $ は $ f $ のヘッセ行列(二階偏微分の行列)です。最適化問題などでよく使われるのは $ \mathbf{a} $ が極値(例えば最小値)である場合で、この時 $ \nabla f(\mathbf{a}) = \mathbf{0} $ となります。したがって、
f(\mathbf{x}) \approx f(\mathbf{a}) + \frac{1}{2} (\mathbf{x} - \mathbf{a})^T \mathbf{H} (\mathbf{x} - \mathbf{a})
2. 負の対数尤度関数としての表現
尤度関数 $ L(\mathbf{x}) $ を $ L(\mathbf{x}) = \exp(-f(\mathbf{x})) $ と定義します。このとき、$ f(\mathbf{x}) $ が上記のように二次形式で近似される場合、$ L(\mathbf{x}) $ の負の対数尤度 $ -\log L(\mathbf{x}) $ は $ f(\mathbf{x}) $ そのものとなり、
-f(\mathbf{x}) \approx -f(\mathbf{a}) - \frac{1}{2} (\mathbf{x} - \mathbf{a})^T \mathbf{H} (\mathbf{x} - \mathbf{a})
3. 正規化
正規化定数 $ C $ を使って、尤度関数の積分が1になるように調整します。$ C $ は次の積分の逆数として求められます:
C = \int \exp\left(-\frac{1}{2} (\mathbf{x} - \mathbf{a})^T \mathbf{H} (\mathbf{x} - \mathbf{a})\right) d\mathbf{x}
ガウス積分の性質から、$ C $ は $ \mathbf{H} $ の行列式 $ |\mathbf{H}| $ と次元に依存します。結果として、
C = (2\pi)^{n/2} |\mathbf{H}|^{-1/2}
4. 多変量ガウス分布
結局、次の式で示される $ L(\mathbf{x}) $ は、平均 $ \mathbf{a} $ と共分散行列 $ \mathbf{H}^{-1} $ を持つ多変量ガウス分布です:
$$ L(\mathbf{x}) = \frac{|\mathbf{H}|^{1/2}}{(2\pi)^{n/2}} \exp\left(-\frac{1}{2} (\mathbf{x} - \mathbf{a})^T \mathbf{H} (\mathbf{x} - \mathbf{a})\right). $$
多次元ガウス分布の一般的な形式は次のようになります:
$$ p(\mathbf{x}) = \frac{1}{(2\pi)^{n/2} |\Sigma|^{1/2}} \exp\left(-\frac{1}{2} (\mathbf{x} - \mu)^T \Sigma^{-1} (\mathbf{x} - \mu)\right). $$
ここで、平均 $\mu = \mathbf{a}$ とし、共分散行列を $\Sigma = \mathbf{H}^{-1}$ と置き換えると、上記の導出した式と一致します。このため、ヘッセ行列の逆行列が共分散行列と一致し、見慣れた多次元ガウス分布の形になります。
多次元ガウス分布は、簡単に $ N(\mu, \Sigma) $ と表すことができます。
1次元の場合
1次元の場合、関数 $ f(x) $ を点 $ a $ でテイラー展開し、負の対数尤度を考えると以下のようになります:
$$ f(x) \approx f(a) + \frac{1}{2} f''(a)(x - a)^2. $$
ここで、$ f''(a) $ は $ f $ の2階導関数です。負の対数尤度は次のようになります:
$$ -f(x) \approx -f(a) - \frac{1}{2} f''(a)(x - a)^2. $$
正規化定数 $ C $ を用いて尤度の積分が1になるように調整すると、以下のように積分の結果を得ます:
$$ C = \int \exp\left(-\frac{1}{2} f''(a)(x - a)^2\right) dx = \sqrt{\frac{2\pi}{f''(a)}}. $$
この定数を用いて、尤度関数 $ L(x) $ は次のように記述できます:
$$ L(x) = \frac{\sqrt{f''(a)}}{\sqrt{2\pi}} \exp\left(-\frac{1}{2} f''(a)(x - a)^2\right). $$
これは、平均 $ a $ と分散 $ (f''(a))^{-1} $ を持つ正規分布の形です。正規分布の一般的な形式は次のようになります:
$$ p(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right). $$
ここで、平均 $\mu = a$ とし、分散を $ \sigma^2 = (f''(a))^{-1} $ と置き換えると、先ほど導出した式と一致することがわかります。
2次元の場合
2次元の場合、関数 $ f(\mathbf{x}) $ は、点 $\mathbf{a} = (a_1, a_2)$ で次のように展開されます:
$$ f(\mathbf{x}) \approx f(\mathbf{a}) + \frac{1}{2} (\mathbf{x} - \mathbf{a})^T \mathbf{H} (\mathbf{x} - \mathbf{a}), $$
ここで、$\mathbf{H}$ は $ f $ のヘッセ行列(2階微分行列)です。この場合の正規化定数 $ C $ は次の通りです:
$$ C = \int \exp\left(-\frac{1}{2} (\mathbf{x} - \mathbf{a})^T \mathbf{H} (\mathbf{x} - \mathbf{a})\right) d\mathbf{x} = (2\pi)^{n/2} |\mathbf{H}|^{-1/2}. $$
この定数を使うことで、多変量ガウス分布(多変数正規分布) $ L(\mathbf{x}) $ は次のように表されます:
$$ L(\mathbf{x}) = \frac{|\mathbf{H}|^{1/2}}{(2\pi)^{n/2}} \exp\left(-\frac{1}{2} (\mathbf{x} - \mathbf{a})^T \mathbf{H} (\mathbf{x} - \mathbf{a})\right). $$
この式は、平均 $\mathbf{a}$ と共分散行列 $\mathbf{H}^{-1}$ を持つ多次元ガウス分布です。
多次元ガウス分布の一般的な形式は次のようになります:
$$ p(\mathbf{x}) = \frac{1}{(2\pi)^{n/2} |\Sigma|^{1/2}} \exp\left(-\frac{1}{2} (\mathbf{x} - \mu)^T \Sigma^{-1} (\mathbf{x} - \mu)\right). $$
ここで、平均 $\mu = \mathbf{a}$ とし、共分散行列を $\Sigma = \mathbf{H}^{-1}$ と置き換えると、上記の導出した式と一致します。このため、ヘッセ行列の逆行列が共分散行列と一致し、2次元でも見慣れた多次元ガウス分布の形が現れます。