はじめに
二次形式を軸に統計学の諸性質を理解してみよう,という試みで書いてみました.個人的には,案外,二次形式を中心に議論しても色々な性質が導かれるので面白かったです.
設定
本記事では,二次形式と多変量正規分布の諸性質との関係をまとめていきます.つまり,多変量正規分布の確率密度関数の指数の肩に乗っている次の式が主役になります.
(\boldsymbol{x} - \boldsymbol{\mu})^T\
\boldsymbol{\Sigma}^{-1}\ (\boldsymbol{x} - \boldsymbol{\mu})
\tag{1}
\label{quadraticform}
ここで,$\boldsymbol{x}$,$\boldsymbol{\mu}$,$\boldsymbol{\Sigma}$はそれぞれ,多変量正規分布から得られるデータベクトル,平均ベクトル,共分散行列です.
数式の記号は次のような規則で書くことにしています.
- 太い小文字・・・ベクトル(特に断りなければn次元)
- 太い大文字・・・行列(特に断りなければn×n行列)
- 細い小文字・大文字・・・行列またはベクトルの成分
諸注意
- 数学的に厳密な導出・証明ではない部分もあります
- 本質に影響は無いので,規格化定数の部分の議論は避けています
- ベクトルは小文字で書くことにしているので,確率変数であっても小文字で書いています
- 平均ベクトルや共分散行列などには,適宜,断りなく添え字を加えることがあります(空気を読んでもらえると助かります…)
- 公式や行列の諸性質などは詳しく説明しません(他のブログ,例えばとけたろうさんのブログなどでわかりやすく説明されているので,そちらも参照してください)
アフィン変換と二次形式
次のようなアフィン変換を考えます.
\boldsymbol{y} = \boldsymbol{A} \boldsymbol{x} + \boldsymbol{b}
\tag{2}
\label{affine}
アフィン変換は線形変換に平行移動を加えた変換です(アフィン変換について,詳しくはこちらのブログなどを参照してください).逆変換は次の通りです.
\boldsymbol{x} = \boldsymbol{A}^{-1} (\boldsymbol{y} - \boldsymbol{b})
\tag{3}
\label{affineinv}
この変換によって二次形式がどう変換されるかを調べることで,多変量正規分布に従う確率変数のアフィン変換が,また別の多変量正規分布に従うことや,二次形式がカイ二乗分布に従うことなどを示すことが出来ます.
二次形式の変換
アフィン変換後の共分散は成分表記だと次のようになります(見にくくなってしまうので,和の記号を省略したアインシュタインの縮約記法を用いています).
\begin{align*}
\text{Cov}[y_i, y_j] &= \text{Cov}[A_{ik} x_k + b_i, A_{jl} x_l + b_j] \\
&= A_{ik}A_{jl}\text{Cov}[x_k,x_l]
\end{align*}
なので,$\boldsymbol{x}$,$\boldsymbol{y}$の共分散行列をそれぞれ$\boldsymbol{\Sigma}_x$,$\boldsymbol{\Sigma}_y$とすると,行列表記では次の関係が成り立ちます.
\begin{equation}
\boldsymbol{\Sigma}_y = \boldsymbol{A} \boldsymbol{\Sigma}_x \boldsymbol{A}^T \quad
\left(
\text{または} \;
\boldsymbol{\Sigma}_x = \boldsymbol{A}^{-1} \boldsymbol{\Sigma}_y (\boldsymbol{A}^{-1})^T
\right)
\tag{4}
\label{transcov}
\end{equation}
この式$\eqref{transcov}$の関係式の逆行列を考えることで,次の関係が成り立ちます.
\begin{align*}
\boldsymbol{\Sigma}_y^{-1}
& = (\boldsymbol{A} \boldsymbol{\Sigma}_x \boldsymbol{A}^{T})^{-1} \\
& = (\boldsymbol{A}^{-1})^T \boldsymbol{\Sigma}_x^{-1} \boldsymbol{A}^{-1}
\tag{5}
\end{align*}
これらの関係式を使うと二次形式は次のように変換されます.
\begin{align*}
(\boldsymbol{x} - \boldsymbol{\mu}_x)^T \boldsymbol{\Sigma}_x^{-1} (\boldsymbol{x} - \boldsymbol{\mu}_x)
&= (\boldsymbol{A}^{-1} (\boldsymbol{y} - \boldsymbol{b}) - \boldsymbol{\mu}_x)^T
\boldsymbol{\Sigma}_x^{-1}
(\boldsymbol{A}^{-1} (\boldsymbol{y} - \boldsymbol{b}) - \boldsymbol{\mu}_x) \\
&= (\boldsymbol{y} - (\boldsymbol{A} \boldsymbol{\mu}_x + \boldsymbol{b}))^T
(\boldsymbol{A}^{-1})^{T} \boldsymbol{\Sigma}_x^{-1} \boldsymbol{A}^{-1}
(\boldsymbol{y} - (\boldsymbol{A} \boldsymbol{\mu}_x + \boldsymbol{b})) \\
&= (\boldsymbol{y} - \boldsymbol{\mu}_y)^T \boldsymbol{\Sigma}_y^{-1}
(\boldsymbol{y} - \boldsymbol{\mu}_y) \tag{6}
\end{align*}
ここで,平均は確率変数と同様に変換される($\boldsymbol{\mu}_y= \boldsymbol{A} \boldsymbol{\mu}_x + \boldsymbol{b}$)ことを使っています.この式の最初と最後を見比べると,確率変数$\boldsymbol{x}$,平均$\boldsymbol{\mu}_x$,共分散行列$\boldsymbol{\Sigma}_x$が,$\boldsymbol{y}$,$\boldsymbol{\mu}_y$,$\boldsymbol{\Sigma}_y$に置き変わっているだけです.そのため,
$\boldsymbol{x} \sim N(\boldsymbol{\mu}_x, \boldsymbol{\Sigma}_x) $をアフィン変換した$\boldsymbol{y}\ (= \boldsymbol{A} \boldsymbol{x} + \boldsymbol{b})$は,
\boldsymbol{y} \sim N(\boldsymbol{\mu}_y, \boldsymbol{\Sigma}_y) = N(\boldsymbol{A} \boldsymbol{\mu}_x + \boldsymbol{b}, \boldsymbol{A} \boldsymbol{\Sigma}_x \boldsymbol{A}^T)
\tag{7} \label{affineGauss}
と,$\boldsymbol{x}$とはまた別の多変量正規分布に従うことがわかります.
二次形式はカイ二乗分布
多変量正規分布に従う確率変数をアフィン変換すると,変換後の変数もまた多変量正規分布に従うことがわかりました.この性質を利用すると,任意の多変量正規分布の二次形式はカイ二乗分布に従うことも示せます.
ここでは簡単のために,平均は0ベクトル($\boldsymbol{\mu}=\boldsymbol{0}$)とします.$\boldsymbol{x}$を多変量標準正規分布に従う確率変数($\boldsymbol{x} \sim N(\boldsymbol{0}, \boldsymbol{I})$ )とすれば,$\boldsymbol{x}$同士の内積は標準正規分布に従う確率変数の2乗和なのでカイ二乗分布に従います.
\boldsymbol{x}^T \boldsymbol{x} = \sum_{i=1}^n x_i^2 \sim \chi^2(n)
\tag{8} \label{xisq}
ここで,次のような変換を考えます.
\boldsymbol{y} = \boldsymbol{A} \boldsymbol{x}
\tag{9}
この変換のもとで式$\eqref{xisq}$の左辺を計算していくと次のようになります.
\begin{align*}
\boldsymbol{x}^T \boldsymbol{x}
&= \boldsymbol{y}^T (\boldsymbol{A}^{-1})^T
\boldsymbol{A}^{-1} \boldsymbol{y} \\
&= \boldsymbol{y}^T (\boldsymbol{A}
\boldsymbol{A}^T)^{-1} \boldsymbol{y}
\tag{10} \label{affinexi}
\end{align*}
ここで,$\boldsymbol{y}$の共分散行列を考えると,$\boldsymbol{x}$の共分散行列は単位行列$\boldsymbol{I}$なので,先ほどのアフィン変換での性質(式$\eqref{affineGauss}$)から次の式が成り立ちます.
\begin{align*}
\boldsymbol{\Sigma}_y
&= \boldsymbol{A} \boldsymbol{I} \boldsymbol{A}^T \\
&= \boldsymbol{A} \boldsymbol{A}^T
\tag{11}
\end{align*}
これと式$\eqref{affinexi}$より,
\boldsymbol{x}^T \boldsymbol{x}
= \boldsymbol{y}^T \boldsymbol{\Sigma}_y^{-1} \boldsymbol{y} \sim \chi^2(n)
\tag{12} \label{affinexi2}
となるので,二次形式がカイ二乗分布に従うことがわかりました.このことは,竹村先生の「現代数理統計学:学術図書出版社」の第13章にも記載があります.
(余談ですが,式(13)はきれいな形をしているので,個人的には,二次形式が従う分布のことをカイ二乗分布の定義としてしまってもいいのではないかと思っています.)
まとめ
二次形式のアフィン変換による性質を調べると,変換後の変数も多変量正規分布に従うことや,二次形式がカイ二乗分布に従うことがわかりました.これらは,母関数を用いて示すことも出来,その方が簡単であったり,多くの教科書ではその方法で証明していると思います.それとは別のアプローチとしたのは,二次形式はマハラノビス距離など幾何学的な意味を持っているため,私自身は解釈しやすかったためです.,二次形式の幾何学的な意味については,別の機会にまとめていきたいと思います.