『統計学実践ワークブック』第7章の勉強メモです。
確率変数の収束
標本空間$\Omega$上の確率変数の列$X_1,X_2,\cdots$を考え、これを${X_n}:\Omega\to \mathbb{R}$とする。${X_n}$がある確率変数$Y$に概収束するとは
P\left(\lim_{n \to \infty}X_n=Y\right)=1
が成り立つこと。以下のようにも書くことができる。
\forall \epsilon>0,\exists N\in\mathbb{N},\forall n\in\mathbb{N}:(n\geq N\Rightarrow |X_n - Y|<\epsilon)
${X_n}$が$Y$に確率収束するとは、任意の$\epsilon >0$に対して
\lim_{n\to\infty}P\left(|X_n-Y|<\epsilon \right)=0
が成り立つこと。以下のように書くこともできる。
\forall \epsilon>0,\forall\delta>0,\exists N\in\mathbb{N},\forall n\in\mathbb{N}:n\geq N\Rightarrow |P(|X_n-Y|<\epsilon)-1|<\delta
概収束する確率変数列は確率収束する。
${X_n}$が$Y$に**$r$次平均収束**するとは、
\lim_{n\to\infty}E[(X_n-Y)^r]=0
が成り立つこと。平均収束する確率変数列は確率収束する。
大数の弱法則
${X_n}$が独立同一分布に従い、その平均と分散がそれぞれ$E[X_n]=\mu$と$V[X_n]=\sigma^2$であるとする。このとき、$X_1,\cdots,X_n$の標本平均$\bar{X_n}=\frac{1}{n}\sum_{i=1}^nX_i$は$n\to\infty$のもとで$\mu$に確率収束する。この定理を大数の弱法則という。
証明
標本平均の期待値、分散は、${X_n}$が独立なので、
\begin{multline}
\begin{split}
E[\bar{X_n}]&=\frac{n\mu}{n}=\mu \\
V[\bar{X_n}]&=\frac{n\sigma^2}{n^2}=\frac{\sigma^2}{n}
\end{split}
\end{multline}
確率論におけるチェビシェフの不等式$P(|X-E[X]|\geq\epsilon)\leq\frac{V[X]}{\epsilon^2}$より、
\begin{multline}
\begin{split}
\lim_{n\to\infty}P(|\bar{X_n}-\mu|\geq\epsilon)&=\lim_{n\to\infty}P(|\bar{X_n}-E[\bar{X_n}]|\geq\epsilon)\\
&\leq \lim_{n\to\infty}\frac{V[\bar{X_n}]}{\epsilon^2}\\
&=\lim_{n\to\infty}\frac{\sigma^2}{n\epsilon^2}=0
\end{split}
\end{multline}
確率分布の収束
確率変数${X_n}$を考え、$X_n$の累積分布関数を$F_n(x)=P(X_n\leq x)$と表す。このとき、${X_n}$がある確率分布$G$に分布収束するとは、
\lim_{n\to\infty}F_n(x)=G(x)
という式が$G$のすべての連続点$x$において成り立つこと。
少数法則
確率変数$X_n$が試行回数$n$、成功確率$\frac{\lambda}{n}$の二項分布$P(X_n=x)={}_nC_x(\frac{\lambda}{n})^x(1-\frac{\lambda}{n})^{n-x}$に従う。ただし$\lambda>0$は定数。このとき、$x$を固定して$n\to\infty$とすると
\lim_{n\to\infty}P(X_n=x)=\frac{\lambda^x}{x!}e^{-\lambda}
となり、ポアソン分布に分布収束する。これをポアソンの少数法則(極限定理)という。
中心極限定理
${X_n}$は平均$\mu$、分散$\sigma^2$の独立同一分布に従う。$X_1,\cdots,X_n$の標本平均を$\bar{X_n}$とする。このとき、標本平均と真の平均の誤差$\sqrt{n}(\bar{X_n}-\mu)$は正規分布$N(0,\sigma^2)$に分布収束する。これを中心極限定理という。
極値分布
標本${X_n}$のうち、$X$以上(、または以下)の標本が従う分布、およびその極限のことを極値分布という。
極値分布が分布収束する先はガンベル分布、フレシェ分布、ワイブル分布の3種類しかないことが知られている。
一般極値分布
極値分布の一般系である一般極値分布(GEV)の累積分布関数は
G(x)=\exp\left\{{-\left(1+\gamma(\frac{x-\mu}{\theta})\right)^{-\frac{1}{\gamma}}}\right\}
となる。ここで、$1+\gamma(\frac{x-\mu}{\theta})>0$であり、$\mu\in\mathbb{R}$は位置パラメータ、$\theta>0$は尺度パラメータ、$\gamma\in\mathbb{R}$は形状パラメータ。
ガンベル分布
$\gamma=0$のとき、
\lim_{\gamma\to 0}G(x)=\exp\{-\exp(-\frac{x-\mu}{\sigma})\}
これをガンベル分布といい、$-\infty<x<\infty$をとる。
ワイブル分布
$\gamma<0$のときワイブル分布といい、$x<\mu-\frac{\sigma}{\gamma}$をとる。
フレシェ分布
$\gamma>0$のときフレシェ分布といい、$x>\mu-\frac{\sigma}{\gamma}$をとる。
分布収束の性質
- $X_n$が$X$に分布収束し、かつ$h$が連続函数であれば、$h(X_n)$は$h(X)$に分布収束する。これを連続写像定理という。
-
- $X_n$が$X$に分布収束し、かつ$Y_n$が定数$c$に確率収束するならば、$X_n+Y_n$および$X_nY_n$はそれぞれ$X+c$および$cX$に分布収束する。これをスルツキーの補題という。
- $X_n$のモーメント簿関数が$M_n(t)=E[e^{tX_n}]<\infty$で、$X$のモーメント簿関数が$M(t)=E[e^{tX}]<\infty$である。このとき、各実数$t$に対して、$M_n(t)\to M(t)$が成り立つならば、$X_n$は$X$に分布収束する。
デルタ法
${X_n}$は平均$\mu$、分散$\sigma^2$の独立分布に従い、$X_1,\cdots,X_n$の標本平均を$\bar{X_n}$とする。ある函数$f$を用いて、$f(\bar{X_n})$と表す。$\sqrt{n}(f(\bar{X_n})-f(\mu))$の分布収束先を求める方法がデルタ法である。
$f(x)$が連続微分可能であれば、テイラーの定理から
f(\bar{X_n})-f(\mu)\approx f'(\mu)(\bar{X_n}-\mu)
と近似できる。ただし、$f'(x)$は$f(x)$の導関数。中心極限定理から$\sqrt{n}(\bar{X_n}-\mu)$は$N(0,\sigma^2)$に分布収束するので、$\sqrt{n}(f(\bar{X_n})-f(\mu))$は$N(0,f'(\mu)^2\sigma^2)$に分布収束する。
多次元の分布収束
2次元の確率変数ベクトル列$(X_1,Y_1),(X_2,X_2),\cdots$の累積分布関数を$F_n(x,y)=P(X_n\leq x,Y_n\leq y)$とおく。このとき、${(X_n,Y_n)}$がある分布$G$に分布収束するとは
\lim_{n\to\infty}F_n(x,y)=G(x,y)
という式が$G$のすべての連続点$(x,y)$において成り立つこと。
$X_n$が分布収束し、かつ$Y_n$が分布収束したとしても、$(X_n,Y_n)$の同時分布は収束するとは限らない。ただし、$X_n$と$Y_n$が独立であるならば、その収束先も独立となる。
$(X_n,Y_n)$が$(X,Y)$に分布収束し、かつ$h(x,y)$が連続那2変数関数であれば、$h(X_n,Y_n)$は$h(X,Y)$に分布収束する。
例題
問7.1
確率変数$X_n$を、$k$回目に投げたさいころの目が$3$であったとき$X_k=1$、そうでないとき$X_k=0$とする。$X_n$は二項分布に従うので、期待値は$\frac{1}{6}$、分散は$\frac{5}{36}$となる。求めたい確率は$P(\sum_{k=1}^{30}X_k\geq 10)$となる。連続修正により、$P(\sum_{k=1}^{30}X_k\geq 9.5)$を考える。
\begin{multline}
\begin{split}
P(\sum_{k=1}^{30}X_k\geq 10)&=P(\bar{X_{30}}\geq \frac{9.5}{30})\\
&=P\left(\frac{\sqrt{30}(\bar{X_{30}}-\frac{1}{6})}{\sqrt{\frac{5}{36}}}\geq\frac{\sqrt{30}(\frac{9.5}{30}-\frac{1}{6})}{\sqrt{\frac{5}{36}}}\right)\\
&\approx P\left(Z\geq\frac{\sqrt{30}(\frac{9.5}{30}-\frac{1}{6})}{\sqrt{\frac{5}{36}}}\right)\\
&=P(Z\geq 2.2)
\end{split}
\end{multline}
となり、$Z\approx N(0,1)$となるので、正規分布表から約$0.014$となる。
問7.2
[1]
中心極限定理より$\sqrt{n}(\bar{X_n}-\mu)$は$N(0,\sigma^2)$に収束する。よって、$\frac{\sqrt{n}(\bar{X_n}-\mu)}{\sigma}$は$N(0,1)$に収束する。
[2]
$f(X)=x^3$としてデルタ法を考える。
\begin{multline}
\begin{split}
\sqrt{n}(\bar{X_n}^3-\mu^3)&=\sqrt{n}(f(\bar{X_n})-f(\mu))\\
&\approx\sqrt{n}f'(\mu)(\bar{X_n}-\mu)\\
&=3\mu^2\sqrt{n}(\bar{X_n}-\mu)\\
&\approx N(0,9\mu^4\sigma^2)
\end{split}
\end{multline}
[3]
$Y=\frac{\sqrt{n}}{\sigma}(\bar{X_n}-\mu)$とすると、中心極限定理より$Y\approx N(0,1)$となる。そのため、$Y^2$は自由度$1$の$\chi^2$分布となる。