#初めに
ゼミでの現代数理統計学の基礎の勉強会のための記事です。
2.4節の確率母関数、積率母関数、特性関数と2.5節の変数変換について書いていきます。
投稿は初めてで、何かと至らぬ点があるかと存じますがご容赦ください。
#確率母関数・積率母関数・特性関数とは?
確率分布を特徴づける関数で、一つの確率分布に対して一つ対応したりしなかったりします(後述)。
期待値や分散、k次のモーメントを比較的簡単に導出できるので統計の授業などで見た人が多いのではないでしょうか。
それぞれについて見ていきます。
##確率母関数
確率変数$X$が非負の整数全体をとるとき、$p(k)=P(X=k)$とすると確率母関数$G_X(s)$は
G_X(s) = E[s^X] = \sum_{k=0}^{\infty}s^kp(k)
で定義できます。
展開すると
G_X(s) = p(0) + sp(1) + s^2p(2) + ...+s^kp(k)+...
となり、その微分したものは
G'_X(s) = p(1) + 2sp(2)+3s^2p(3)+...\\
G''_X(s) = 2p(2) + 3\cdot2sp(3)+...
となっていくので $p(0)=G_X(0),p(1)=G'_X(0),p(2)=G''_X(0)$ で、一般化すると
p(k) = \left.\frac{1}{k!}\frac{d^k}{ds^k}G_X(s)\right|_{s=0} = \frac{1}{k!}G_X^{(k)}(0)
となります。
つまり、確率母関数$G_X(s)$は確率関数$p(k),k=0,1,2...$を生成する関数ととらえられます。
また、確率分布{$p(k)|k=0,1,2...$}と確率母関数$G_X(s)$は一対一で対応することもわかります。
さらに上式より
G'_X(s) = p(1) + 2sp(2)+3s^2p(3)+...=E[Xs^{X-1}]\\
G''_X(s) = 2p(2) + 3\cdot2sp(3)+...=E[X(X-1)s^{X-2}]
なので、一般に $G_X^{(k)}(s) = E[X(X-1)\cdot\cdot\cdot(X-k+1)s^{X-k}]$ となり、$s=1$ とすることで
E[X(X-1)\cdot\cdot\cdot(X-k+1)]=G_X^{(k)}(1)
のようにk次階乗モーメントが得られます。
##積率母関数、特性関数
ある $h>0$ が取れて、$|t|<h$ となるすべての$t$に対して
M_X(t) = E[e^{tX}]
が存在するとき、$M_X(t)$を$X$の積率母関数といいます。確率母関数の$s$を$e^s$にしたものと同じですね。
また、虚数単位$i(i^2=-1)$に対して
\varphi_X(t) = E[e^{itX}] = E[cos(tX)+isin(tX)]
を特性関数といいます。積率母関数の$t$を$it$にしたものと同じですね。
特性関数はどのような分布に対しても存在するのに対して、積率母関数は分布によっては存在しないことがあります。
それぞれ$t$について微分すると
E[X^k] = \left.\frac{d^k}{dt^k}M_X(t)\right|_{t=0} = M_X^{(k)}(0)\\
E[X^k] = \left.\frac{1}{i^k}\frac{d^k}{dt^k}\varphi_X(t)\right|_{t=0}=\frac{1}{i^k}\varphi_X^{(k)}(0)
となり、モーメントを生成することが分かります。
【例2.15】
$0\leq{x}\leq1$に対して$f_X(x)=1$である一様分布について、その積率母関数は
M_X(t) = E[e^{tX}] = \int_{0}^{1}e^{tX}dx = \frac{e^t-1}{t}
で、微分すると$M'_X(t)=(te^t-e^t+1)/t^2$、$M''_X(t)=(t^2e^t-2te^t+2e^t-2)/t^3$となります。
ロピタルの定理$\lim_{x \to a}{g(x)}/{f(x)}=\lim_{x \to a} {g'(x)}/{f'(x)}$より
$E[X] = \lim_{t \to 0}M'_X(t)=1/2$
$E[X^2] = \lim_{t \to 0}M''_X(t)=1/3$
が導出でき、$Var[X] = E[X^2]-(E[X])^2 = 1/3 - 1/4 = 1/12$と期待値と分散を導出できます。特性関数でも同様にして求めることができます。
$aX+b$の特性関数は
\varphi_{aX+b}(t) = E[e^{it(aX+b)}] = e^{bit}\varphi_X(at)
と書くことができます。また特性関数の対数$\psi_X(t) = \log\varphi_X(t)$をキュムラント母関数といいます。
\psi'_X(t) = \frac{\varphi'_X(t)}{\varphi_X(t)}, \psi''_X(t)=\frac{\varphi''(t)\varphi(t)-{\varphi'_X(t)}^2}{{\varphi_X(t)}^2}
より、$\psi'_X(0)=\varphi'_X(0) = iE[X]$、$\psi''_X(0) = \varphi_X(0) - {\varphi'_X(0)}^2 = i^2Var(X)$となります。
キュムラント母関数を展開すると
\psi_X(t) = \sum_{k=1}^r\frac{(it)^k}{k!}\gamma_k + o(t^r)
と書けます。この係数$\gamma_k$を$k$次キュムラントといいます。
##特性関数と確率分布の対応
【定理2.16】
$F_X(x)$の連続点 $a,b(a<b)$ に対して
P(a < X < b) = \lim_{T \to \infty}\frac{1}{2\pi}\int_{-T}^{T}\frac{e^{-ita}-e^{-itb}}{it}\varphi_X(t)dt
が成り立つ。
二つの確率変数$X$と$Y$の特性関数$\varphi_X(t)$と$\varphi_Y(t)$に対して$\varphi_X(t)=\varphi_X(t)$がすべての$t$で成り立つとき、すべての$u$に対して$F_X(u)=F_Y(u)$が成り立つ。
つまり特性関数と確率分布は一対一で対応することを示しています。
特に$X$が連続型確率変数で$\int_{-\infty}^{\infty}|\psi_X(t)|dt<\infty$のとき、
\varphi_X(t) = \int_{-\infty}^{\infty}f_X(x)e^{itx}dx\\
f_X(x) = \frac{1}{2\pi}\int_{-\infty}^{\infty}e^{-itx}\varphi_X(x)dt
がなりたちますが、これはそれぞれ$f_X(x)$のフーリエ変換、$\varphi_X(t)$の逆フーリエ変換に対応します。
【定理2.17】
確率変数の列$X_k$,$k=1,2...$について、$X_k$の特性関数$\varphi_{X_k}(t)$が
\lim_{k \to \infty}\varphi_{X_k}(t) = \varphi_X(t)
に収束すると仮定すると、$\varphi_X(t)$に対応する分布関数$F_X(x)$の全ての連続点$x$で
\lim_{k \to \infty}F_{X_k}(x) = F_X(x)
が成り立つ。
つまり$k \to \infty$のとき$X_k$の分布は$X_k$の特性関数の極限に対応する分布に収束することが分かります。
また、この連続性定理は中心極限定理の証明でも使われます。
#変数変換
確率変数$X$を関数$g(x)$を通して$Y=g(X)$に変換したとき、$Y$の分布を求める。
F_Y(y)=P(Y\leq{y})=P(g(X)\leq{y})=P(X\in{\{x|g(x)\leq{y}\}})
$X$が連続型確率変数のとき、$Y$の確率密度関数は一般に
f_Y(y) = \frac{d}{dy}F_Y(y) = \frac{d}{dy}P(X\in{\{x|g(x)\leq{y}\}})
で、$g(・)$が単調増加関数のときには逆関数$g^{-1}(・)$が存在するので$(x|g(x)\leq{y})=(x|x\leq{g}^{-1}(y))$と書ける。よって
F_Y(y) = \int^{g^{-1}(y)}_{-\infty} f_X(x)dx
と書けるのでこれを$y$について微分すると
f_Y(y) = f_X(g^{-1}(y))\frac{d}{dy}g^{-1}(y)
が得られる。ここで$g(g^{-1}(y))=y$の両辺を$y$について微分したものである
g'(g^{-1}(y))\frac{d}{dy}g^{-1}(y) = 1
を前式に代入すると
f_Y(y) = f_X(g^{-1}(y))\frac{1}{g'(g^{-1}(y))}
と表せる。
【定理2.18】
確率変数$X$の確率密度関数を$f_X(x)$とし、$Y=g(X)$とする。$g(X)$が単調増加もしくは単調減少な関数とし、$g^{-1}(y)$は微分可能であるとする。この時、$Y$の確率密度関数は次で与えられる。
f_Y(y) = f_X(g^{-1}(y))\left| \frac{d}{dy}g^{-1}(y) \right| = f_X(g^{-1}(y))\frac{1}{|g'(g^{-1}(y))|}
【命題2.19】
連続型確率変数$X$の分布関数を$F_X(x)$とし、新たに確率変数$Y$を$Y=F_X(X)$で定義する。このとき、$Y$の確率密度関数は$f_Y(y)=1$、$0<y<1$となる。
▶証明
$0<y<1$なる$y$に対して、$g(x)=F_X(x)$は単調増加関数だから定理2.18を用いると
f_Y(y)=f_X(F^{-1}_X(y))\frac{1}{f_X(F^{-1}_X(y))}=1
となる。
【命題2.20】
連続型確率変数$Z$の確率密度関数が$f(z)$で与えられるとする。$\mu$を実数、$\sigma$を正の実数とし$X=\sigma Z+\mu$なる変数変換を考えると、$X$の確率密度関数は
f_X(x) = \frac{1}{\sigma}f\left(\frac{x-\mu}{\sigma}\right)
と与えられる。これは、位置母数$\mu$、尺度母数$\sigma$を持つ位置尺度分布族と呼ばれる。
▶証明
$z=g^{-1}(x)=(x-\mu)/\sigma$、$(d/dx)g^{-1}(x)=1/\sigma$より
f_X(g^{-1}(y))\left| \frac{d}{dy}g^{-1}(y) \right| = \frac{1}{\sigma}f\left(\frac{x-\mu}{\sigma}\right)
となる。
【命題2.21】
(平方変換)確率変数$X$の確率密度関数を$f_X(x)$とする。$X$の平方変換$Y=X^2$に対しては、$Y$の確率密度関数は
f_Y(y) = \{f_X(\sqrt{y})+f_X(-\sqrt{y})\}\frac{1}{2\sqrt{y}}
で与えられる。
▶証明
$y>0$に対して$(x|x^2\leq{y})=(x|-\sqrt{y}\leq x \leq \sqrt{y})$であるから
f_Y(y) = \frac{d}{dy}P(X\in\{x|x^2\leq{y}\}) = \frac{d}{dy} \int^{\sqrt{y}}_{-\sqrt{y}}f_X(x)dx=\{f_X(\sqrt{y})+f_X(-\sqrt{y})\}\frac{1}{2\sqrt{y}}
【例2.22】
\begin{cases}
|x|\ (-1\leq{x}\leq1) \\
0\ (else)
\end{cases}
のとき、$Y=X^2$の確率密度関数は
f_Y(y) = \{f_X(\sqrt{y})+f_X(-\sqrt{y})\}\frac{1}{2\sqrt{y}}=\frac{f_X(\sqrt{y})}{\sqrt{y}}=1
と、区間$[0,1]$の一様分布となる。