問題
(2.43)の多変量ガウス分布を考える。精度行列(逆共分散行列)$\mathbf{\Sigma^{-1}}$を対称行列と反対称行列(歪対称行列)の和の形で書くと、反対称行列の項がガウス分布の指数部分には現れなくなるため、一般性を失うことなく精度行列は対称であるとしてよいことを示せ。
多変量ガウス分布
多変量ガウス分布は、多変量正規分布(Multivariate normal distribution)のことです。
確率変数 ${X}$ について、変数が $\mathrm{x}$ という1個の場合、$\mathrm{x}$ が従う正規分布は
\begin{align*}
\mathcal{N}\left(x | \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\}
\tag{2.42}
\end{align*}
になります。
また、$\mathbf{ x } ^ \mathrm { T }=\left(x_{1}, x_{2}, \ldots, x_{D}\right)$という ${D}$ 次元ベクトル$\mathbf{ x }$が従う多変量正規分布は
\begin{align*}
\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\mathbf{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}
\tag{2.43}
\end{align*}
と書けます。ただし、$\boldsymbol{\mu}$ は ${D}$ 次元の平均ベクトル、$\boldsymbol{\Sigma}$ は ${ D \times D}$ の共分散行列、そして $|\mathbf{\Sigma}|$ は $\mathbf{\Sigma}$ の行列式を表すこととします。
方針
ここでは、任意の行列 $\mathbf{M}$ が、対称行列 $\mathbf{S}$ と反対称行列 $\mathbf{A}$ を用いて
\begin {align*}
\mathbf {M} = \mathbf{S + A}
\end{align*}
と表されることに着目します。(比較的簡単に証明できます)
これを用いて、精度行列$\mathbf{\Sigma}^{-1}$を対称行列と反対称行列の和の形に分解した上で、ガウス分布の変数 ${x}$ に依存する部分(二次形式)に含まれる行列が、対称行列のみによって表されることを示します。
解答
任意の行列 $\mathbf{M}$ について、$\mathbf{M}$ を表す対称行列 $\mathbf{S}$ と反対称行列 $\mathbf{A}$ を用いて、
$\mathbf{M=S+A}$ と表される時、( $\mathbf{S=S^{t}}$ 、$\mathbf{A=-A^{t}}$ )
${s_{ij}}$ = ${s_{ji}}$
${a_{ij}}$ = ${-a_{ji}}$
よって、
${m_{ij}}$ = ${s_{ij}}$ + ${a_{ij}}$
${m_{ji}}$ = ${s_{ji}}$ + ${a_{ji}}$ =${s_{ij}}$ - ${a_{ij}}$
上記2式の辺々の加法と減法により、
${s_{ij}}$ = $({m_{ij} + {m_{ji}}})/2$
${a_{ij}}$ = $({m_{ij} - {m_{ji}}})/2$
よって、精度行列 $\mathbf{\Sigma^{-1}}$ について、$\mathbf{M}$ = $\mathbf{\Sigma^{-1}}$ とすると、ガウス分布の二次形式の部分は、
\begin{align*}
(\mathbf{x}-\boldsymbol{\mu})^{\top} \mathbf{M}(\mathbf{x}-\boldsymbol{\mu})=\sum_{i=1}^{D} \sum_{j=1}^{D}\left(x_{i}-\mu_{i}\right) m_{i j}\left(x_{j}-\mu_{j}\right)
\end{align*}
と表せる。
$x_{i}-\mu_{i}=y_{i}$ とおき、上記の二次形式を展開した式に代入すると、
\begin{align*}
\sum_{i=1}^{D} \sum_{j=1}^{D} y_{i}\left(s_{i j}+a_{i j}\right) y_{j}
& =\sum_{i=1}^{D} \sum_{j=1}^{D}\left(y_{i} y_{j} s_{i j}+y_{i} y_{i} a_{i j}\right) \\
& =\sum_{i=1}^{D} \sum_{j=1}^{D} y_{i} y_{j} s_{i j}+\sum_{i=1}^{D} \sum_{j=1}^{D} y_{i} y_{j}\left(\frac{m_{ij}-m_{j i}}{2}\right) \\
& =(\mathbf{x}-\boldsymbol{\mu})^{\top} \mathbf{S}(\mathbf{x}-\boldsymbol{\mu})+\frac{1}{2} [ \sum_{i=1}^{D} \sum_{j=1}^{D} y_{i} y_{j} m_{i j}-\sum_{i=1}^{D} \sum_{j=1}^{D} \ y_{j} y_{i} \ m_{j i}] \\
& = (\mathbf{x}-\boldsymbol{\mu})^{\top} \mathbf{S}(\mathbf{x}-\boldsymbol{\mu})
\end{align*}
よって、題意は証明された。