1. はじめに
※この記事は、LTSグループAdvent Calendar 2023に参加しています。
はじめまして。株式会社エル・ティー・エスでデータサイエンティストをしている@Abimaruです。統計検定準一級合格を目標に数理統計学の勉強をしています。
さて、統計学・機械学習の書籍を読んでいると、多次元正規分布の確率密度関数の式(1)が何の説明もなく登場することがしばしばあります。
\begin{align}
f_{ \boldsymbol{ X } } ( \boldsymbol{ x } ) = \frac{ 1 } { \sqrt{ (2 \pi) ^ n det V } } \exp \Biggl( -\frac{ 1 } { 2 } ( \boldsymbol{ x } - \boldsymbol{ \mu }) ^ T V ^ { -1 } ( \boldsymbol{ x } - \boldsymbol{ \mu }) \Biggl) \tag{1}
\end{align}
一方、式(2)は一次元の正規分布の確率密度関数です。
\begin{align}
f_{X}(x) = \frac{ 1 } { \sqrt{ 2 \pi } \sigma } \exp \Biggl( - \frac{1}{2} \frac{ ( x - \mu ) ^ 2 }{
\sigma ^2 } \Biggl) \tag{2}
\end{align}
ここで各記号の意味は下表の通りです。
一次元 | 多次元 | |
---|---|---|
確率変数 | $X$ | $\boldsymbol{X}$ |
期待値 | $\mu$ | $\boldsymbol{\mu}$ |
分散 | $\sigma$ | |
共分散行列 | $V$ |
多次元正規分布の式(1)には行列式や逆行列が含まれており、一次元の正規分布の式(2)をどのように拡張したら式(1)を導出できるのか、数学が得意ではない私には理解できず、しばらくモヤモヤしていました。今年になって多次元正規分布の導出について理解できたので、以下にポイントをまとめます。
2. 標準正規分布から多次元標準正規分布へ拡張する
個々の確率変数が標準正規分布に従い、全て独立な $ n $ 個の確率変数ベクトル $ \boldsymbol{ Z } = ( Z_{ 1 }, \cdots, Z_{ n } ) ^ T $ を考え、この $ \boldsymbol{ Z } $ が従う分布を $ n $ 次元標準正規分布と定義します。 $ Z_{ 1 }, \cdots, Z_{ n } $ は独立なので、 $ \boldsymbol{ Z } $ の確率密度関数は、個々の確率変数の確率密度関数 $ f_{Z_i}(z_{i}) = \frac{1}{\sqrt{2\pi}} \exp( -\frac{1}{2} z_{i}^2) $ の積で計算することができます。すなわち、
\begin{align}
f_{ \boldsymbol{ Z } } (\boldsymbol{z}) &= \prod_{ i=1 } ^ { n } f_{Z_{i}}( z_{ i } ) = \frac{ 1 }{ \sqrt{ (2 \pi ) ^ n } } \exp \Biggl( - \frac{ ||\boldsymbol{ z }|| ^ 2 }{ 2 } \Biggl) \tag{3}
\end{align}
ここで $ \boldsymbol{ Z } $ の期待値および共分散行列は、前提条件から(個々の確率変数が標準正規分布に従い、全て独立)、
\begin{align}
\text{ E }[ \boldsymbol{ Z } ]
&= \begin{pmatrix} \text{ E } [Z_{1}] \\ \vdots \\ \text{ E } [Z_{n}] \end{pmatrix}
= \boldsymbol{0} \tag{4}
\\
\\
\text{ V }[ \boldsymbol{ Z } ]
&= \begin{pmatrix} \text{ V }[ Z_{ 1 } ] & \text{ Cov }[ Z_{ 1 }, Z_{ 2 }] & \cdots & \text{ Cov } [Z_{ 1 }, Z_{ n }] \\
\text{ Cov } [Z_{ 2 }, Z_{ 1 }] & \text{V} [ Z_{2} ] & \cdots & \text{ Cov } [Z_{ 2 }, Z_{n}] \\
\vdots & & \ddots & \vdots \\
\text{Cov}[Z_{n}, Z_{1}] & \text{Cov}[Z_{n}, Z_{2}] & \cdots & \text{V}[Z_{n}] \end{pmatrix} = I
\tag{5}
\end{align}
となります。
3. 一般の多次元正規分布への拡張
3.1. 確率変数の線形変換
確率変数 $ \boldsymbol{X} $, $ \boldsymbol{Z} $ の間に、正則な行列 $ A $ とベクトル $ \boldsymbol{ b } $ によって $ \boldsymbol{X} = A \boldsymbol{Z} + \boldsymbol{ b } $ の関係が成立しているとします。このとき、確率変数 $\boldsymbol{X}$ の確率密度関数 $f_{\boldsymbol{X}}$ と 確率変数 $\boldsymbol{Z}$ の確率密度関数 $f_{\boldsymbol{Z}}$ の間には次の関係が成り立ちます。
\begin{align}
f_{\boldsymbol{X}} (\boldsymbol{x}) = \frac{1}{|\text{det}A|} f_{\boldsymbol{Z}} (\boldsymbol{z})
\end{align} \tag{6}
これは重積分の変数変換の公式から求められます。
\begin{align}
\idotsint_{D'} f_{\boldsymbol{X}}(x_1, \cdots, x_n) dx_1 \cdots dx_n
&= \idotsint_{D} f_{\boldsymbol{X}}(x_1(z_1, \cdots, z_n), \cdots, x_n(z_1, \cdots, z_n))
~ \Biggl| \frac{\partial(x_1, \cdots, x_n)}{\partial(z_1, \cdots, z_n)}\Biggl| ~ dz_1 \cdots dz_n \\
&= \idotsint_{D} f_{\boldsymbol{X}}(x_1(z_1, \cdots, z_n), \cdots, x_n(z_1, \cdots, z_n)) ~ |\text{det} A| ~ dz_1 \cdots dz_n \\
&= \idotsint_{D} f_{\boldsymbol{Z}}(z_1, \cdots, z_n) dz_1 \cdots dz_n
\tag{7}
\end{align}
3.2. 多次元正規分布の式の導出
個々の確率変数が標準正規分布に従い、全て独立な $ n $ 個の確率変数ベクトル $ \boldsymbol{ Z } = ( Z_{ 1 }, \cdots, Z_{ n } ) ^ T $ と、 $ Z $ を線形変換して得られる確率変数 $ \boldsymbol{X} = A \boldsymbol{Z} + \boldsymbol{\mu} $ を考えます。ここで $ A $ は正則行列です。式(3), (6)より、
f_{ \boldsymbol{ X } } ( \boldsymbol{ x } )
= \frac{ 1 }{ | \text{det} A |} \frac{ 1 }{ \sqrt{ (2\pi)^n } }
\exp \Biggl( -\frac{ 1 }{ 2 } || A ^ {-1} (\boldsymbol{x - \mu}) || ^ 2 \Biggl)
\tag{8}
また、
\begin{align}
V &= \text{ V }[ A\boldsymbol{Z} + \boldsymbol{\mu} ] = A \text{V} [Z] A ^ T = A A ^ T ~ \because (5) \\
& \therefore ~ | \text{ det } A | = \sqrt{ \det{ V } }
\tag{9}
\end{align}
\begin{align}
|| A ^ {-1} (\boldsymbol{x - \mu}) || ^ 2 = (\boldsymbol{x - \mu}) ^ T (A A ^ T) ^ {-1} (\boldsymbol{x - \mu}) = (\boldsymbol{x - \mu}) ^ T V ^ {-1} (\boldsymbol{x - \mu}) \tag{10}
\end{align}
式(8) ~ (10)より、期待値が $\mu$, 共分散が $ V $ の $ n $ 次元正規分布の式(11)を求めることができました。
f_{ \boldsymbol{ X } } ( \boldsymbol{x}) = \frac{ 1 }{ \sqrt{ ( 2 \pi ) ^ n \text{ det } V } } \exp \Biggl( - \frac{1}{2} (\boldsymbol{x-\mu}) ^ T V ^ {-1} (\boldsymbol{x - \mu}) \Biggl) \tag{11}
まとめ
多次元正規分布の導出過程についてまとめました。なお、本記事ではさらっと流した確率変数の線形変換ですが、幾何学的には多次元標準正規分布を変形する操作(伸縮する、反転する、回転する、曲げる、etc)に対応しています。多次元正規分布の幾何学的なイメージについては、以下の書籍・サイトに詳しい記載がありましたので、リンクを貼っておきます。