こんにちは,株式会社Nospare・千葉大学の小林です.
今回は便利&有名な正規分布の尺度混合表現を3つ紹介したいと思います.
尺度混合表現とは
まず,正規尺度混合表現とは何かについて説明します.$Y$が実数上の確率変数,$Z$を$N(0,1)$に従う確率変数,$V$を$Z$とは独立な正の確率変数とします.正規分布の尺度混合表現(scale mixture of normal)は,$Y$を$Z$と$V$を用いて表現します:
$$
Y = \sqrt{V} Z,\quad (1)
$$
$V$を所与としたとき,$Y$の条件付分布は$N(0,V)$となります.$V$の確率密度関数を$p(v)$で表記するとすると,$Y$の周辺確率密度関数$p(y)$は
$$
p(y)=\int_0^\infty \phi(y;0,V)p(v)dv,\quad (2)
$$
で得られます.ここで,$\phi(\cdot;\mu,\sigma^2)$は$N(\mu,\sigma^2)$の確率密度関数です.$Y$の周辺期待値と周辺分散はそれぞれ$E[Y]=\mu$,$V(Y)=E[V]$となります.この正規尺度混合表現で表される$Y$の分布は,正規分布と同様に$0$について対称で単峰ですが,分布の裾は正規分布よりも柔軟になります.各コンポネント分布が分散パラメータ$\sigma_k^2, \ k=1,\dots,K$を持つ正規有限混合モデル$p(y)=\sum_{k=1}^K\pi_k\phi(y;0,\sigma^2_k)$では,分散パラメータ$\sigma_k^2$を持つコンポネント分布の重みが$\pi_k$を持つ,という離散的な混合表現なのに対し,正規尺度混合は(2)式のように連続的な混合表現になっています.
(1)式は位置パラメータ$\mu$と尺度パラメータ$\sigma$を追加して,一般的に
$$
Y = \mu+\sigma\sqrt{V} Z,\quad (3)
$$
と書けます.
正規尺度混合表現のモチベーション
まず,ここで関心のある分布は$Y$の分布です.裾が正規分布よりも厚い金融リターンの分布など,正規分布では当てはまりが悪いようなデータに対しては,データの裾の特徴を捉えるために$t$分布などといった分布を$Y$の分布に仮定したほうが良いことがよくあります.一方で,正規分布に基づいたモデルに関する推測は,仮に数値計算が必要な場合があったとしても,アルゴリズムの各ステップは解析的に実行することができる,などといった計算上の利点がありますが,より柔軟な分布や複雑な分布を直接用いた場合には,一般的に数値計算が必要になってしまいます.
正規尺度混合表現は($t$分布など)$Y$の周辺分布がわかっている場合に,(2)が$Y$の周辺分布となるように$V$が従う分布を特定する,という形で用いられることが多いです.(1)から,$V$を所与としたときには$Y$の条件付き分布は正規分布ですので,$V$を所与とすると通常の正規モデルに対する推測方法を用いることができます.$V$は観測されない潜在変数ですが,データを所与とした事後平均の代入(EMのE-stepに相当)や事後分布からサンプリングを行うことで,$V$をあたかも観測されたものとして扱うことができます.
一方で,ベイズ変数選択のように(1)からスタートし,$V$に適切な分布を仮定することで$Y$の周辺分布が望ましい性質を持つようにモデリングを行う,というモチベーションもあります.
位置・尺度混合表現もあります
尺度混合表現の発展形として,次のような位置・尺度混合表現もあります:
$$
Y = \mu+\beta V + \sigma\sqrt{V} Z,
$$
ここで$\beta$は位置・尺度混合表現における追加的な実パラメータで,$\beta=0$のときは尺度混合表現と等しくなります.この$\beta$は$Y$の歪度をコントロールすることができ,$\beta\neq0$のとき,$Y$の分布は非対称になります.位置・尺度混合表現についてはまた別の記事で取り上げたいと思います.
便利な尺度混合表現3選
t分布
$t$分布は,正規分布の代替としておそらく一番ポピュラーなもので,低い自由度パラメータの値では正規分布よりも裾が厚くなります.自由度$\nu>0$を持つ$t$分布の確率密度関数は,
$$
p(y)=\frac{\Gamma\left(\frac{\nu+1}{2}\right)}{\sqrt{\nu\pi\sigma^2}\Gamma\left(\frac{\nu}{2}\right)}\left(1+\frac{(y-\mu)^2}{\nu\sigma^2}\right)^{-\frac{\nu+1}{2}}
$$
で与えられます.この$t$分布に対する正規尺度混合表現は,(3)で$V$に逆ガンマ分布$IG(\nu/2,\nu/2)$を仮定することで得られます.
ラプラス分布
ラプラス分布は,例えばベイズ変数選択におけるLasso事前分布などでよく用いられます(Lasso事前分布についての解説は菅澤先生の記事「縮小事前分布によるベイズ的変数選択1: Bayesian Lasso」を参照してください).ラプラス分布の確率密度関数は,
$$
p(y)=\frac{1}{2\sigma} \exp\left(-\frac{|y-\mu|}{\sigma}\right)
$$
で与えられます.ラプラス分布に対する正規尺度混合表現は,$V$に平均が$1$の指数分布$Exp(1)$を仮定することで得られます.
指数べき乗分布
指数べき乗分布は,一般化正規分布とも呼ばれ,正規分布やラプラス分布を含む少し一般的なクラスの分布です.確率密度関数は
$$
p(y)=\frac{\alpha}{2\sigma\Gamma\left(\frac{1}{\alpha}\right)} \exp\left(-\left|\frac{y-\mu}{\sigma}\right|^\alpha\right)
$$
で与えられ,$\alpha=1$のときにラプラス分布,$\alpha=2$のときに正規分布となります.$1\leq\alpha\leq2$の場合,指数べき乗分布に従う$Y$は,$\alpha/2$を指数に持つ正の安定分布に従う$V^{-1}$を用いて(3)で表現することができます..
おわりに
ある分布に対して,得られる混合表現は1つとは限りませんが,本記事では一番定番なものを紹介しました.次回は非対称な分布を表現することができる位置・尺度混合表現について紹介したいと思います.
データサイエンス研修,研究に必要なデータ収集やります!
株式会社Nospareではベイズ統計学に限らず統計学の様々な分野を専門とする研究者が所属しており,新たな知見を日々追求しています.統計アドバイザリー,ビジネスデータの分析,データサイエンス研修につきましては弊社までお問い合わせください.また主に社会科学分野における実証研究に必要なデータ収集サービスも行っておりますので,こちらもぜひお問い合わせください.