多次元正規分布の確率密度関数の導出について

Last updated at 2023-12-21Posted at 2023-12-21

1. はじめに

※この記事は、LTSグループAdvent Calendar 2023に参加しています。

　はじめまして。株式会社エル・ティー・エスでデータサイエンティストをしている@Abimaruです。統計検定準一級合格を目標に数理統計学の勉強をしています。

　さて、統計学・機械学習の書籍を読んでいると、多次元正規分布の確率密度関数の式(1)が何の説明もなく登場することがしばしばあります。

\begin{align}
f_{ \boldsymbol{ X } } ( \boldsymbol{ x } ) = \frac{ 1 } { \sqrt{ (2 \pi) ^ n  det V } } \exp \Biggl( -\frac{ 1 } { 2 } ( \boldsymbol{ x } - \boldsymbol{ \mu }) ^ T V ^ { -1 } ( \boldsymbol{ x } - \boldsymbol{ \mu }) \Biggl) \tag{1}
\end{align}

一方、式(2)は一次元の正規分布の確率密度関数です。

\begin{align}
f_{X}(x) = \frac{ 1 } { \sqrt{ 2 \pi } \sigma } \exp \Biggl( - \frac{1}{2} \frac{ ( x - \mu ) ^ 2 }{ 
\sigma ^2 } \Biggl) \tag{2}
\end{align}

ここで各記号の意味は下表の通りです。

	一次元	多次元
確率変数	$X$	$\boldsymbol{X}$
期待値	$\mu$	$\boldsymbol{\mu}$
分散	$\sigma$
共分散行列		$V$

多次元正規分布の式(1)には行列式や逆行列が含まれており、一次元の正規分布の式(2)をどのように拡張したら式(1)を導出できるのか、数学が得意ではない私には理解できず、しばらくモヤモヤしていました。今年になって多次元正規分布の導出について理解できたので、以下にポイントをまとめます。

2. 標準正規分布から多次元標準正規分布へ拡張する

　個々の確率変数が標準正規分布に従い、全て独立な $ n $ 個の確率変数ベクトル $ \boldsymbol{ Z } = ( Z_{ 1 }, \cdots, Z_{ n } ) ^ T $ を考え、この $ \boldsymbol{ Z } $ が従う分布を $ n $ 次元標準正規分布と定義します。 $ Z_{ 1 }, \cdots, Z_{ n } $ は独立なので、 $ \boldsymbol{ Z } $ の確率密度関数は、個々の確率変数の確率密度関数 $ f_{Z_i}(z_{i}) = \frac{1}{\sqrt{2\pi}} \exp( -\frac{1}{2} z_{i}^2) $ の積で計算することができます。すなわち、
　

\begin{align}
f_{ \boldsymbol{ Z } } (\boldsymbol{z}) &= \prod_{ i=1 } ^ { n } f_{Z_{i}}( z_{ i } ) = \frac{ 1 }{ \sqrt{ (2 \pi ) ^ n } } \exp \Biggl( - \frac{ ||\boldsymbol{ z }|| ^ 2 }{ 2 } \Biggl) \tag{3}
\end{align}

ここで $ \boldsymbol{ Z } $ の期待値および共分散行列は、前提条件から（個々の確率変数が標準正規分布に従い、全て独立）、

\begin{align}
\text{ E }[ \boldsymbol{ Z } ]
&= \begin{pmatrix} \text{ E } [Z_{1}] \\ \vdots \\ \text{ E } [Z_{n}] \end{pmatrix}
= \boldsymbol{0} \tag{4}

\\
\\

\text{ V }[ \boldsymbol{ Z } ]
&= \begin{pmatrix} \text{ V }[ Z_{ 1 } ] & \text{ Cov }[ Z_{ 1 }, Z_{ 2 }] & \cdots & \text{ Cov } [Z_{ 1 }, Z_{ n }] \\
\text{ Cov } [Z_{ 2 }, Z_{ 1 }] & \text{V} [ Z_{2} ] & \cdots & \text{ Cov } [Z_{ 2 }, Z_{n}] \\
\vdots & & \ddots & \vdots \\
\text{Cov}[Z_{n}, Z_{1}] & \text{Cov}[Z_{n}, Z_{2}] & \cdots & \text{V}[Z_{n}] \end{pmatrix} = I
\tag{5}
\end{align}

となります。

3. 一般の多次元正規分布への拡張

3.1. 確率変数の線形変換

　確率変数 $ \boldsymbol{X} $, $ \boldsymbol{Z} $ の間に、正則な行列 $ A $ とベクトル $ \boldsymbol{ b } $ によって $ \boldsymbol{X} = A \boldsymbol{Z} + \boldsymbol{ b } $ の関係が成立しているとします。このとき、確率変数 $\boldsymbol{X}$ の確率密度関数 $f_{\boldsymbol{X}}$ と確率変数 $\boldsymbol{Z}$ の確率密度関数 $f_{\boldsymbol{Z}}$ の間には次の関係が成り立ちます。

\begin{align}
f_{\boldsymbol{X}} (\boldsymbol{x}) = \frac{1}{|\text{det}A|} f_{\boldsymbol{Z}} (\boldsymbol{z})
\end{align}　\tag{6}

これは重積分の変数変換の公式から求められます。

\begin{align}
\idotsint_{D'} f_{\boldsymbol{X}}(x_1, \cdots, x_n) dx_1 \cdots dx_n
&= \idotsint_{D} f_{\boldsymbol{X}}(x_1(z_1, \cdots, z_n), \cdots, x_n(z_1, \cdots, z_n)) 
 ~ \Biggl| \frac{\partial(x_1, \cdots, x_n)}{\partial(z_1, \cdots, z_n)}\Biggl| ~ dz_1 \cdots dz_n \\
&= \idotsint_{D} f_{\boldsymbol{X}}(x_1(z_1, \cdots, z_n), \cdots, x_n(z_1, \cdots, z_n)) ~ |\text{det} A| ~ dz_1 \cdots dz_n \\
&= \idotsint_{D} f_{\boldsymbol{Z}}(z_1, \cdots, z_n) dz_1 \cdots dz_n
\tag{7}
\end{align}

3.2. 多次元正規分布の式の導出

　個々の確率変数が標準正規分布に従い、全て独立な $ n $ 個の確率変数ベクトル $ \boldsymbol{ Z } = ( Z_{ 1 }, \cdots, Z_{ n } ) ^ T $ と、 $ Z $ を線形変換して得られる確率変数 $ \boldsymbol{X} = A \boldsymbol{Z} + \boldsymbol{\mu} $ を考えます。ここで $ A $ は正則行列です。式(3), (6)より、

f_{ \boldsymbol{ X } } ( \boldsymbol{ x } )
= \frac{ 1 }{ | \text{det} A |} \frac{ 1 }{ \sqrt{ (2\pi)^n } }
\exp \Biggl( -\frac{ 1 }{ 2 } || A ^ {-1} (\boldsymbol{x - \mu}) || ^ 2 \Biggl)
\tag{8}

また、

\begin{align}
V &= \text{ V }[ A\boldsymbol{Z} + \boldsymbol{\mu} ] = A \text{V} [Z] A ^ T = A A ^ T ~ \because (5) \\

& \therefore ~ | \text{ det } A | = \sqrt{ \det{ V } }
\tag{9}
\end{align}

\begin{align}
|| A ^ {-1} (\boldsymbol{x - \mu}) || ^ 2 = (\boldsymbol{x - \mu}) ^ T (A A ^ T) ^ {-1} (\boldsymbol{x - \mu}) = (\boldsymbol{x - \mu}) ^ T V ^ {-1} (\boldsymbol{x - \mu}) \tag{10}
\end{align}

式(8) ~ (10)より、期待値が $\mu$, 共分散が $ V $ の $ n $ 次元正規分布の式(11)を求めることができました。

f_{ \boldsymbol{ X } } ( \boldsymbol{x}) = \frac{ 1 }{ \sqrt{ ( 2 \pi ) ^ n \text{ det } V } } \exp \Biggl( - \frac{1}{2} (\boldsymbol{x-\mu}) ^ T V ^ {-1} (\boldsymbol{x - \mu})  \Biggl) \tag{11}

まとめ

　多次元正規分布の導出過程についてまとめました。なお、本記事ではさらっと流した確率変数の線形変換ですが、幾何学的には多次元標準正規分布を変形する操作（伸縮する、反転する、回転する、曲げる、etc）に対応しています。多次元正規分布の幾何学的なイメージについては、以下の書籍・サイトに詳しい記載がありましたので、リンクを貼っておきます。

書籍
- https://www.ohmsha.co.jp/book/9784274067754
WEBサイト
- https://qiita.com/c60evaporator/items/d53053358105b0117f2c

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up