#はじめに
- 現代数理統計学の基礎 (共立講座 数学の魅力)
- 2018/5/6、amazonで購入。
- 第四章「多次元確率変数の分布」まで
#確率空間
- 参考文献 パターン認識と機械学習の学習 普及版
確率空間$(\Omega, F, P)$とは以下の条件を満たす三つ組のことである。
- $\Omega$をある集合
- $F$を$\Omega$を含む$\Omega$の部分集合の集合で$\sigma $加法族であるもの
- $P$を$F$から実数全体$R$への写像で次を満たすもの
(a) $P(E) \ge 0$
(b) $E_1, E_2, \ldots$ が互いに素なら $P(\bigcup_i E_i) = \sum_i P(E_i)$
(c) $P(\Omega) = 1$
確率変数$X$は、$\Omega$から$R$への写像で、開区間$(-\infty, a)$の逆像$[\omega|X(\omega) \lt a]$が$F$に含まれるもの。
確率変数$X$を用いて$\Omega$の要素を$R$に整列させることにより、確率$P$を$R$から$R$への写像と考えることが可能になる。
累積分布関数を$F_X(x)=P(X\le x)=P([\omega|X(\omega)\le x])$で定義する。
確率密度関数を$\int_{-\infty}^xf_X(t)dt=F_X(x)$で定義する。$f_X(x)=\frac{d}{dx}F_X(x)$となる。
#確率母関数、積率母関数、特性関数
\begin{align}
{確率母関数}\quad G_X(s)&=E[s^X]=\sum_{k=0}^\infty s^kp(k)\\
G_X^{(k)}(1)&=E[X(X-1)\cdots(X-k+1)]\\
{積率母関数}\quad M_X(t)&=E[e^{tX}]=\int_{-\infty}^\infty p(x)e^{tx}dx=\sum_{k=0}^\infty E[X^k]\frac{t^k}{k!}\\
{キュムラント母関数}\quad K_X(t)&=\log M_X(t)\\
{特性関数}\quad \phi_X(t)&=E[e^{itX}]=\int_{-\infty}^\infty p(x)e^{itx}dx\\
{第2キュムラント母関数}\quad \psi_X(t)&=\log\phi_X(t)
\end{align}
#各種分布
\begin{align}
p(k|n,p)&=\binom{n}{k}p^k(1-p)^{n-k}\quad 二項分布\\
&E[X]=np,V(X)=np(1-p),\phi_X(t)=(1-p+pe^{it})^n\\
p(k|r,p)&=\binom{r+k-1}{k}p^r(1-p)^k\quad 負の二項分布\\
&E[X]=\frac{r(1-p)}{p},V(X)=\frac{r(1-p)}{p^2},\phi_X(t)=\left(\frac{p}{1-(1-p)e^{it}}\right)^r\\
p(k|\lambda)&=\frac{\lambda^k}{k!}e^{-\lambda}\quad ポアソン分布\\
&E[X]=\lambda,V(X)=\lambda,\phi_X(t)=\exp{\lambda(e^{it}-1)}\\
f_X(x|\mu,\sigma^2)&=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\quad 正規分布\\
&E[X]=\mu,V(X)=\sigma^2,\phi_X(t)=\exp\left(it\mu-\frac{t^2\sigma^2}{2}\right)\\
f(x|\nu)&=\frac{\Gamma\left(\frac{\nu+1}{2}\right)}{\sqrt{\nu\pi}\Gamma\left(\frac{\nu}{2}\right)}
\left(1+\frac{x^2}{\nu}\right)^{-\frac{\nu+1}{2}}\quad\text{t分布}\\
&E[X]=0(\nu>1),V(X)=\frac{\nu}{\nu-2}(\nu>2)\\
f_X(x|\alpha,\beta)&=\frac{1}{\Gamma(\alpha)\beta^\alpha}x^{\alpha-1}e^{-\frac{x}{\beta}}\quad ガンマ分布\\
&E[X]=\alpha\beta,V(X)=\alpha\beta^2,\phi_X(t)=(1-it\beta)^{-\alpha}\\
f_X(x|n)&=\frac{1}{\Gamma(\frac{n}{2})2^{\frac{n}{2}}}x^{\frac{n}{2}-1}e^{-\frac{x}{2}}\quad カイ二乗分布\\
&E[X]=n,V(X)=2n,\phi_X(t)=(1-2it)^{-\frac{n}{2}}\\
f_X(x|\lambda)&=\lambda e^{-\lambda x}\quad 指数分布\\
&E[X]=\lambda^{-1},V(X)=\lambda^{-2},\phi_X(t)=(1-it\lambda^{-1})^{-1}\\
f_X(x|a,b)&=\frac{1}{B(a,b)}x^{a-1}(1-x)^{b-1}\quad ベータ分布\\
&E[X]=\frac{a}{a+b},V(X)=\frac{ab}{(a+b)^2(a+b+1)}
\end{align}
#コーシー分布
留数定理を使用して特性関数を導出。
\begin{align}
p(x)&=\frac{1}{\pi(1+x^2)}\\
\phi_X(t)&=\int_{-\infty}^\infty \frac{e^{itx}}{\pi(1+x^2)}dx
=2\pi i\frac{e^{-t}}{\pi\ 2i}=e^{-t}\quad(t\ge0)\\
&=e^{-|t|}\quad(-\infty \lt t\lt \infty)
\end{align}
#逆ガウス分布
確率密度関数
\begin{align}
f_X(x|\mu,\lambda)&=\left(\frac{\lambda}{2\pi}\right)^{\frac{1}{2}}
x^{-\frac{3}{2}}\exp\left(-\frac{\lambda}{\mu^2}\frac{(x-\mu)^2}{2x}\right)\\
\int_0^\infty f_X(x|\mu,\lambda)dx&=\int_0^\infty\left(\frac{\lambda}{2\pi}\right)^{\frac{1}{2}}
x^{-\frac{3}{2}}\exp\left(-\frac{\lambda}{\mu^2}\frac{(x-\mu)^2}{2x}\right)dx\\
&(x\rightarrow \mu x)\\
&=\int_0^\infty\left(\frac{\lambda}{2\pi\mu}\right)^{\frac{1}{2}}
x^{-\frac{3}{2}}\exp\left(-\frac{\lambda}{\mu}\frac{(x-1)^2}{2x}\right)dx\\
&(x\rightarrow 1/x)\\
&=\int_0^\infty\left(\frac{\lambda}{2\pi\mu}\right)^{\frac{1}{2}}
x^{-\frac{1}{2}}\exp\left(-\frac{\lambda}{\mu}\frac{(x-1)^2}{2x}\right)dx\\
&y=\frac{1}{2}(\sqrt{x}-1/\sqrt{x})\\
&\sqrt{x}=y+\sqrt{y^2+1}\\
&\frac{1}{2}x^{-\frac{1}{2}}dx=\left(1+\frac{y}{\sqrt{y^2+1}}\right)dy\\
\int_0^\infty f_X(x|\mu,\lambda)dx&=\int_{-\infty}^\infty
\left(\frac{\lambda}{2\pi\mu}\right)^{\frac{1}{2}}
2\left(1+\frac{y}{\sqrt{y^2+1}}\right)\exp\left(-\frac{\lambda}{\mu}2y^2\right)dy\\
&=\left(\frac{\lambda}{2\pi\mu}\right)^{\frac{1}{2}}
2\left(\frac{\pi\mu}{2\lambda}\right)^{\frac{1}{2}}=1
\end{align}
積率母関数
\begin{align}
M_X(t)&=\int_0^\infty\exp{(tx)}
\left(\frac{\lambda}{2\pi}\right)^{\frac{1}{2}}
x^{-\frac{3}{2}}\exp\left(-\frac{\lambda}{\mu^2}\frac{(x-\mu)^2}{2x}\right)dx\\
\frac{\lambda}{\mu^2}\frac{(x-\mu)^2}{2x}-tx&=\left(\frac{\lambda}{\mu^2}-2t\right)\frac{x}{2}
-\frac{\lambda}{\mu}+\frac{\lambda}{2x}\\
&=\left(\frac{\lambda}{\mu^2}-2t\right)\frac{1}{2x}\left(x-\sqrt{\frac{\lambda}{\frac{\lambda}{\mu^2}-2t}}\right)^2
+\sqrt{\lambda\left(\frac{\lambda}{\mu^2}-2t\right)}-\frac{\lambda}{\mu}\\
&\mu'=\sqrt{\frac{\lambda}{\frac{\lambda}{\mu^2}-2t}}\\
&=\frac{\lambda}{\mu'^2}\frac{(x-\mu')^2}{2x}
+\sqrt{\lambda\left(\frac{\lambda}{\mu^2}-2t\right)}-\frac{\lambda}{\mu}\\
M_X(t)&=\exp\left(
\frac{\lambda}{\mu}-\sqrt{\frac{\lambda^2}{\mu^2}-2\lambda t}
\right)
=\exp\left(\frac{\lambda}{\mu}\left(1-\sqrt{1-2\frac{\mu^2}{\lambda} t}\right)
\right)
\end{align}
キュムラント母関数が、正規分布のキュムラント母関数の逆関数に対応している。
\begin{align}
z&=\frac{\lambda}{\mu}\left(1-\sqrt{1-2\frac{\mu^2}{\lambda} t}\right)\Rightarrow t=\frac{1}{\mu}z-\frac{1}{2\lambda}z^2
\end{align}
積率母関数をテーラー展開して平均と分散を算出。
$1-\sqrt{1-x}\simeq \frac{1}{2}x+\frac{1}{8}x^2+\cdots$を適用。
\begin{align}
M_X(t)&\simeq \exp\left(\mu t+\frac{1}{2}\frac{\mu^3}{\lambda}t^2+\cdots\right)\\
&\simeq 1+\mu t+\frac{1}{2}\frac{\mu^3}{\lambda}t^2+\frac{1}{2}\mu^2t^2+\cdots\\
E[X]&=\mu,E[X^2]=\frac{\mu^3}{\lambda}+\mu^2,Var(X)=\frac{\mu^3}{\lambda}
\end{align}
#超幾何分布
$M$個の赤い球と$N-M$個の白い球が入っている壺から$K$個の玉を無作為に非復元抽出した時に、赤い球が$x$個存在する確率。$(M\ge K,N-M\ge K)$
\begin{align}
p(x|N,M,K)&=\frac{\binom{M}{x}\binom{N-M}{K-x}}{\binom{N}{K}}
\quad(x=0,\cdots,K)\\
(a+b)^N&=(a+b)^M(a+b)^{N-M}\\
\sum_{K=0}^N\binom{N}{K}a^Kb^{N-K}&=
\sum_{x=0}^M\binom{M}{x}a^xb^{M-x}
\sum_{y=0}^{N-M}\binom{N-M}{y}a^yb^{N-M-y}\\
x+y=K&\iff a^Kb^{N-K}=a^xb^{M-x}a^yb^{N-M-y}\\
\binom{N}{K}&=\sum_{x=0}^K\binom{M}{x}\binom{N-M}{K-x}\\
\therefore\quad\sum_{x=0}^Kp(x|N,M,K)&=1\\
\end{align}
平均と分散
\begin{align}
\sum_{x=0}^Kx\binom{M}{x}\binom{N-M}{K-x}&=\sum_{x=1}^KM\binom{M-1}{x-1}\binom{N-M}{K-x}\\
&=\sum_{x=0}^{K-1}M\binom{M-1}{x}\binom{N-M}{K-x-1}\\
&=\sum_{x=0}^{K-1}M\binom{M-1}{x}\binom{(N-1)-(M-1)}{(K-1)-x}\\
&=M\binom{N-1}{K-1}\\
E[X]&=M\binom{N-1}{K-1}/\binom{N}{K}=\frac{MK}{N}\\
\sum_{x=0}^Kx(x-1)\binom{M}{x}\binom{N-M}{K-x}&=\sum_{x=2}^KM(M-1)\binom{M-2}{x-2}\binom{N-M}{K-x}\\
&=\sum_{x=0}^{K-2}M(M-1)\binom{M-2}{x}\binom{N-M}{K-2-x}\\
&=M(M-1)\binom{N-2}{K-2}\\
E[X(X-1)]&=M(M-1)\binom{N-2}{K-2}/\binom{N}{K}=\frac{M(M-1)K(K-1)}{N(N-1)}\\
Var(X)&=E[X(X-1)]+E[X]-E[X]^2\\
&=\frac{MK(N-M)(N-K)}{N^2(N-1)}
\end{align}
$M/N=p$で$N\to\infty$の極限で二項分布に収束する。
\begin{align}
p(x|N,M,K)&=\frac{\binom{M}{x}\binom{N-M}{K-x}}{\binom{N}{K}}\\
&=\frac{M!}{x!(M-x)!}\frac{(N-M)!}{(K-x)!(N-M-K+x)!}\frac{K!(N-K)!}{N!}\\
&=\binom{K}{x}\frac{M!(N-M)!(N-K)!}{(M-x)!(N-M-K+x)!N!}\\
&\simeq \binom{K}{x}\frac{(M-x)^x}{e^{-x}}\frac{(N-M-K+x)^{K-x}}{e^{-K+x}}\frac{e^{-K}}{(N-K)^K}\\
&=\binom{K}{x}\left(\frac{M-x}{N-K}\right)^x\left(\frac{N-M-K+x}{N-K}\right)^{K-x}\\
&\simeq \binom{K}{x}p^x(1-p)^{K-x}
\end{align}
#分散の性質
\begin{align}
Var(X+Y)&=\iint (x+y-(\mu_x+\mu_y))^2p(x,y)dxdy\\
&=\iint [(x-\mu_x)^2+(y-\mu_y)^2+2(x-\mu_x)(y-\mu_y)]p(x,y)dxdy\\
&=Var(X)+Var(Y)+2Cov(X,Y)\\
Var(X)&=E[X^2]-E[X]^2\\
Cov(X,Y)&=E[XY]-E[X]E[Y]
\end{align}
#条件付き分散公式
\begin{align}
Var(X)&=E[Var(X|Y)]+Var(E[X|Y])
\end{align}
本書の説明内容が理解できなかったので、積分に変換して地道に計算してみた。
\begin{align}
Var(X)&=\int x^2p(x)dx-\mu^2\\
&=\iint x^2p(x,y)dxdy-\mu^2\\
&\quad\because p(x)=\int p(x,y)dy\\
\mu&=\int xp(x)dx
\end{align}
$Var(X|Y)$は$y$を限定した$x$の分散で$y$の関数。
\begin{align}
Var(X|Y)&=\int x^2p(x|y)dx-\mu_x(y)^2\\
\mu_x(y)&=\int xp(x|y)dx\\
E[Var(X|Y)]&=\iint x^2p(x|y)dx\ p(y)dy-\int \mu_x(y)^2p(y)dy\\
&=\iint x^2p(x,y)dxdy-\int \mu_x(y)^2p(y)dy\\
&\quad\because p(x|y)p(y)=p(x,y)\\
\end{align}
$E[X|Y]$は$y$を限定した$x$の平均で$y$の関数。
\begin{align}
E[X|Y]&=\int xp(x|y)dx=\mu_x(y)\\
Var(E[X|Y])&=\int\mu_x(y)^2p(y)dy-\mu_y^2\\
\mu_y&=\int\mu_x(y)p(y)dy=\iint xp(x|y)dx\ p(y)dy\\
&=\iint xp(x,y)dxdy=\int xp(x)dx=\mu\\
Var(E[X|Y])&=\int\mu_x(y)^2p(y)dy-\mu^2
\end{align}
合算すると条件付き分散公式が得られる。
\begin{align}
E[Var(X|Y)]+Var(E[X|Y])&=\int x^2p(x,y)dxdy-\mu^2\\
&=Var(X)
\end{align}
同様に条件付き共分散公式が成り立つ(証明略)。
\begin{align}
Cov(X,Y)&=E[Cov(X,Y|Z)]+Cov(E[X|Z],E[Y|Z])
\end{align}
#一般化平均
正の確率変数$X$に対する一般化平均$A(t)$は増加関数となる。
\begin{align}
A(t)&=E[X^t]^{\frac{1}{t}}=\left(\int_0^\infty x^t p(x)dx\right)^{\frac{1}{t}}\quad(|t|\le1)\\
\log A(t)&=\frac{1}{t}\log \int_0^\infty x^t p(x)dx\\
\frac{d}{dt}\log A(t)&=-\frac{1}{t^2}\log \int_0^\infty x^t p(x)dx
+\frac{1}{t}\frac{\int_0^\infty x^t\log x\ p(x)dx}{\int_0^\infty x^t p(x)dx}\\
&=\frac{1}{t^2\int_0^\infty x^t p(x)dx}\left[\int_0^\infty x^t \log x^t p(x)dx
-\int_0^\infty x^t p(x)dx\log\left( \int_0^\infty x^t p(x)dx\right)
\right]
\end{align}
イェンセンの不等式で$f(s)=s\log s,y(x)=x^t$とすると$\frac{d}{dt}\log A(t)\ge0$となることが分かる。
\begin{align}
\int_0^\infty f(y(x))p(x)dx &\ge f\left(\int_0^\infty y(x)p(x)dx\right)\quad{イェンセンの不等式(f(x)は下に凸関数)}
\end{align}
またイェンセンの不等式で$f(s)=-\log s,y(x)=x^t$とすると以下の関係式が得られる。
\begin{align}
\int_0^\infty \log x^t\ p(x)dx &\le \log\left(\int_0^\infty x^t p(x)dx\right)\\
\int_0^\infty \log x\ p(x)dx &\le \frac{1}{t}\log\left(\int_0^\infty x^t p(x)dx\right)\quad(t>0)\\
\int_0^\infty \log x\ p(x)dx &\ge \frac{1}{t}\log\left(\int_0^\infty x^t p(x)dx\right)\quad(t<0)
\end{align}
従って以下の関係式が成り立つ。
\begin{align}
E[X^{-t}]^{-\frac{1}{t}}&\le\exp E[\log X]\le E[X^t]^{\frac{1}{t}}\quad(t>0)
\end{align}
$t\to0$とすると等号が成立する。ロピタルの定理を適用。
\begin{align}
\lim_{t\to0}\log A(t)=\lim_{t\to0}\frac{\int_0^\infty x^t\log x\ p(x)dx}{\int_0^\infty x^t p(x)dx}=E[\log X]
\end{align}