今回ですが、数理統計学をテーマにまとめたいと思います。
機械学習やデータサイエンスブームなどもあり、その根底にある統計学への関心も高まってはいるのでしょうが、なかなか日々の業務やキャッチアップが忙しくて手が回らない方が多いのではないでしょうか。特に数理統計学ともなると、本を開くと抽象的な記号や数式が大量に出てきて読む気が起きない。。。私もそんな感じなのですが、最近勉強し直してみていろいろ思うところもあり今回数理統計学の前半部分(確率論の初歩)の部分を、大学初年度程度の微分積分の知識を前提に解説してみたいと思います。
今回はコンセプトとして、初歩から中心極限定理を説明することを主眼としているので、
省略した話もかなりあり、これでは全然足りないのですが勉強し直しのきっかけにしてもらえればと思います。
なるべく目で見て読めるように式展開を極力詳しめにしたので、少し長いですがお付き合いいただければと思います。
確率変数・確率分布
厳密にやろうと思えば集合が〜とか、可測集合族が〜とかいろいろ言えるのですが、ここはサラッと行きます。
確率変数とは、ある事象に対して値を与えたものです。
例えばコインを投げて、"表"が出る事象を1、裏が出る事象を"0"とすれば、コイン投げの全事象は$\{ 0,1 \}$この0,1を確率変数といいます。慣習上大文字のアルファベット(多くの場合$X$)を用いて表し、まともなコインであれば表、裏それぞれの出る確率が$\frac{1}{2}$はずなので、このことを以下のように表します。
\begin{align}
表が出る: & P \left( X=1 \right) = \frac{1}{2} \\
裏が出る: & P \left( X=0 \right) = \frac{1}{2}
\end{align}
これをまとめて
P \left( X=x \right) =
\begin{cases}
\frac{1}{2} & x = 0, 1 & x \in \mathbb{Z} \\
0 & x \neq 0,1 & x \in \mathbb{Z}
\end{cases}
のように表します。このように確率変数に対して確率を対応させたものを確率分布と呼びます。この確率分布の確率変数ですが、対象とするものによって実数全体のような($\mathbb{R}$)連続値を取りうるもの、整数全体($\mathbb{Z}$)、自然数全体($\mathbb{N}$)のような飛び飛びの離散値を取りうるものにわけられます。先述のコイン投げの場合は離散値となりますし、身長のような原理上どんな値も取れるようなものについては連続値となります。
同様にサイコロを投げたときのサイコロの目の値を確率変数にした場合の確率分布は
P \left( X=x \right) =
\begin{cases}
\frac{1}{6} & 1 \leq x \leq 6 & x \in \mathbb{Z} \\
0 & x \leq 0 \quad \mbox{or} \quad x \geq 7 & x \in \mathbb{Z}
\end{cases}
となります。今後は上記数式の2行目の0の部分は明らかなので、必要な場合を除いて省略します。
次に、分布関数について紹介します。分布関数$F_{X} \left( x \right)$は以下のような定義となります。
F_{X} \left( x \right) = P \left( X \leq x \right) = \sum_{k= -\infty}^{x} P \left( X=k \right)
つまり、確率変数が$x$以下の値を取る場合の確率の合計となります。
確率の合計になるので
\lim_{x \rightarrow \infty} F \left( x \right) = 1 \\
\lim_{x \rightarrow -\infty} F \left( x \right) = 0
となり、かつ非減少関数となります。先程のサイコロの例の場合
F_{X} \left( x \right) =
\begin{cases}
0 & x < 1\\
\frac{1}{6} & 1 \leq x < 2 & \\
\frac{1}{3} & 2 \leq x < 3 & \\
\frac{1}{2} & 3 \leq x < 4 & \\
\frac{2}{3} & 4 \leq x < 5 & \\
\frac{5}{6} & 5 \leq x < 6 & \\
1 & x \geq 6 & \\
\end{cases}
となります。
今度は確率変数が連続値を取る場合について考えます。連続値を取る場合、各点各点の確率を考えるのが難しいので、分布関数から考えることにします。ある連続型確率変数に対して分布関数$F_{X} \left( x \right)$が求まったとして、先程の$\sum$を$\int$に置き換えた
F_{X} \left( x \right) = P \left( X \leq x \right) = \int_{-\infty}^{x} f_{X} \left( t \right) dt
を考え、この両辺を$x$で微分した
\frac{dF_{X} \left( x \right)}{dx} = f_{X} \left( x \right)
を確率分布の代用品として考え確率密度関数と呼びます。よって連続型で$a \leq X \leq b$の範囲を取る確率は
P \left(a \leq X \leq b \right) = \int_{a}^{b} f_{X} \left( t \right) dt
となります。当然連続型についても
\lim_{x \rightarrow \infty} F \left( x \right) = 1 \\
\lim_{x \rightarrow -\infty} F \left( x \right) = 0
は成り立ちます。特に、
\lim_{x \rightarrow \infty} F \left( x \right) = P \left( -\infty \leq X \leq \infty \right) = \int_{-\infty}^{\infty} f_{X} \left( t \right) dt = 1
となります(こちらは特に頭に入れておいてください)。
期待値・分散
次に確率変数について理解できたところで、期待値と分散についてみていきます。
期待値
次に期待値と分散について解説します。
関数$g \left( X \right)$に対する期待値は$E\left( g\left(X \right) \right)$のように書き、離散型の場合以下のように定義されます。
E\left( g\left(X \right) \right) = \sum_{k=-\infty}^{\infty} g\left(X=k \right) P \left( X=k \right)
連続型の場合は
E\left( g\left(X \right) \right) = \int_{-\infty}^{\infty} g\left( t \right) f_{X} \left( t \right) dt
特に単に期待値というと$g \left( X \right)$が$x$の場合を表し、$E\left( X \right)$のように書き、離散型の場合、
E\left( X \right) = \sum_{k=-\infty}^{\infty} k P \left( X=k \right)
連続型の場合
E\left( X \right) = \int_{-\infty}^{\infty} t f_{X} \left( t \right) dt
となります。この期待値は慣習上$\mu$という記号でよく表されます(つまり$\mu=E\left( X \right)$)。この記事でも特に断りなく$\mu$と書いた場合は期待値を表しているものとします。
##分散
分散は$g \left( X \right) = \left( X - \mu \right)^{2}$の期待値となり、$\textrm{Var} \left(X \right)$や単に$V \left(X \right)$などと表します。離散型の場合
\textrm{Var}\left( X \right) = \sum_{k=-\infty}^{\infty} \left(k - \mu \right)^2 P \left( X=k \right)
連続型の場合
\textrm{Var}\left( X \right) = \int_{-\infty}^{\infty} \left( t - \mu \right)^{2} f_{X} \left( t \right) dt
となります。また、分散の平方根$\sqrt{\textrm{Var} \left( X \right)}$を標準偏差と呼び、慣習上$\sigma$で表します(つまり$\sigma^{2}=\textrm{Var} \left( X \right)$)。$\sigma$も$\mu$と同様に特に断りなく使用した場合は標準偏差を表すものとします。
期待値・分散の性質
期待値・分散についていくつかよく使われる性質を紹介します(証明については全て連続型で行いますが、離散型についても同様に示せます)。
\begin{align*}
1.& \quad E \left( a g_{1}\left( X\right) + b g_{2}\left( X\right) \right) = a E\left( g_{1}\left( X\right) \right) + b E\left( g_{2}\left( X\right) \right) \quad ^{\forall}a,^{\forall}b \in \mathbb{R} \\
2.& \quad E \left( c \right) = c \quad ^{\forall}c \in \mathbb{R}
\end{align*}
1.の証明
\begin{align*}
E \left( a g_{1}\left( X\right) + b g_{2}\left( X\right) \right) &= \int_{-\infty}^{\infty} \left\{ a g_{1}\left( X\right) + b g_{2}\left( X\right) \right\} f_{X} \left( t \right) dt \\
&= a \int_{-\infty}^{\infty} g_{1}\left( X\right) f_{X} \left( t \right) dt + b \int_{-\infty}^{\infty} g_{2}\left( X\right) f_{X} \left( t \right) dt \\
&= a E\left( g_{1}\left( X\right) \right) + b E\left( g_{2}\left( X\right) \right)
\end{align*}
2.の証明
\begin{align*}
E \left( c \right) &= \int_{-\infty}^{\infty} c f_{X} \left( t \right) dt \\
&= c \int_{-\infty}^{\infty} f_{X} \left( t \right) dt \\
&= c
\end{align*}
となります。先程注意した確率密度関数を全区間で積分したら1(確率を全て足したら1)という性質を使いました。すなわち、和の期待値は期待値の和と考えてよく、確率変数の定数倍の期待値は、期待値を定数倍すればよい(いわゆる線形性が成り立つ)ということとなり、定数の期待値は定数自身となります。
分散については以下の性質が知られています。
\begin{align*}
1.& \quad \textrm{Var} \left( aX+b \right) = a^{2} \textrm{Var} \left( X \right) \quad ^{\forall}a,^{\forall}b \in \mathbb{R} \\
2.& \quad \textrm{Var} \left( c \right) = 0 \quad ^{\forall}c \in \mathbb{R} \\
3.& \quad \textrm{Var} \left( X \right) = E \left( X^{2} \right) -\left\{ E \left( X \right) \right\}^{2}
\end{align*}
となります。
1.の証明
まず、期待値の性質から$E\left( aX+b \right) = aE\left( X \right) + b$が成り立つことに注意しておいてください。
\begin{align*}
\textrm{Var} \left( aX+b \right) &= E\left( \left\{ \left( aX+b \right) - E \left(aX+b \right) \right\}^{2} \right)\\
&= E\left( a^{2}\left( X - E \left(X \right) \right)^{2} \right)\\
&= a^{2}E\left(\left( X - E \left(X \right) \right)^{2} \right)\\
&= a^{2} \textrm{Var} \left( X \right)
\end{align*}
2.は1.の$a=0$の場合に相当するので0となります。分散は確率変数に定数を加えても値が不変(平行移動に依存しない)が、確率変数を定数倍した場合はその二乗分分散がずれるということとなります。
3.の証明
\begin{align*}
\textrm{Var} \left( X \right) &= \int_{-\infty}^{\infty} \left( t - \mu \right)^{2} f_{X} \left( t \right) dt \\
&= \int_{-\infty}^{\infty} \left( t^{2} - 2\mu t + \mu^{2} \right) f_{X} \left( t \right) dt \\
&= \int_{-\infty}^{\infty} t^{2} f_{X} \left( t \right) dt - 2\mu \int_{-\infty}^{\infty} t f_{X} \left( t \right) dt + \mu^{2} \int_{-\infty}^{\infty} f_{X} \left( t \right) dt \\
&= E \left( X^{2} \right) -2 \left\{ E \left( X \right) \right\}^{2} + \left\{ E \left( X \right) \right\}^{2} \\
&= E \left( X^{2} \right) -\left\{ E \left( X \right) \right\}^{2}
\end{align*}
となります。分散を求める公式としてよく使われるので、覚えている方も多いのではないでしょうか。
確率変数変換
次に確率変数$X$を$Y=g\left( X \right)$と変数変換した場合の確率密度関数$f_{Y} \left( y \right)$について考えてみましょう。この確率密度関数の分布関数$F_{Y} \left( y \right)$は
F_{Y} \left( y \right) = P \left( Y \leq y \right) = \int_{-\infty}^{y} f_{Y} \left( t \right) dt
となるのでこれの両辺を$y$で微分した関数が確率密度関数$f_{Y} \left( y \right)$となります。いま$Y=g\left( X \right)$に注意すると
\begin{align*}
f_{Y} \left( y \right) &= \frac{d}{dy} P \left( Y \leq y \right) \\
&= \frac{d}{dy} P \left( X \in \left\{ x | g\left( x \right) \leq y \right\} \right)
\end{align*}
$ \{ x | g\left( x \right) \leq y\}$についてですが、$ g\left( x \right) \leq y$の条件を満たす$x$の集合ということになります。ざっくり言ってしまうと$g\left( x \right)$の$x$に値を突っ込んで$y$以下になったもの全部という意味です。
さすがに、これだけだと辛すぎるので例を上げて説明します。
- 単調増加の場合(単調減少でも同じ議論ができます)
単調増加の場合$y=g\left( x \right)$は逆関数を持ちますので、その逆関数を$x=g^{-1}\left( y \right)$として
\begin{align*}
f_{Y} \left( y \right) &= \frac{d}{dy} P \left( Y \leq y \right) \\
&= \frac{d}{dy} P \left( g\left( X \right) \leq y \right) \\
&= \frac{d}{dy} P \left( X \leq g^{-1}\left( y \right) \right) \\
& = \frac{d}{dy} \int_{-\infty}^{g^{-1}\left( y \right)} f_{X} \left( t \right) dt \\
&= f_{X} \left( g^{-1}\left( y \right) \right) \frac{dg^{-1}\left( y \right)}{dy}
\end{align*}
$g^{-1}\left( y \right)$は$y$を$x$について解いた関数なので、$f_{Y} \left( y \right)$を求めるには、$f_{X} \left( x \right)$の$x$に、$y=g\left( x \right)$を$x$について解いた式を代入し、その$x$について解いた式の微分係数をかけておけばよいということになります。こちら単調減少の場合も同様に議論が可能で、併せて
f_{X} \left( g^{-1}\left( y \right) \right) \left| \frac{dg^{-1}\left( y \right)}{dy} \right|
となります。具体例は次の正規分布の項で見てみることにします。
#期待値・分散などここまでの例
今回は、この後も使用する確率分布の期待値と分散を求めます。離散型の例として二項分布、連続型の例として正規分布を利用します。割と式変形が煩雑なので、あまり数学に自信のない方は雰囲気だけでも大丈夫です。どちらも積率母関数を導入して求めるのが簡単なのですが、ここではあえて直接求めることを考えてみます。
二項分布
二項分布ですが、次の確率に対応します。
「確率$p$で当たるくじがあり、そのくじを$n$回引いたときに、当たる回数$x$となる確率(ただし、くじは引くたびにもとに戻し$p$が変化しないようにする)。」
この確率は以下のような確率関数で表されます。
f_{X} \left( x \right) = {}_{n} C_{x} p^{x} \left(1-p \right)^{n-x} \\
{}_{n} C_{x} = \frac{n!}{x!\left( n-x \right)!}
こちらの期待値と分散を求めてみましょう。
期待値
期待値を求めてみます。
\begin{align*}
E\left( X \right) &= \sum_{x=0}^{n} x {}_{n} C_{x} p^{x} \left(1-p \right)^{n-x} \\
&= \sum_{x=0}^{n} x \frac{n!}{x!\left( n-x \right)!} \left(1-p \right)^{n-x} \\
&= \sum_{x=1}^{n} \frac{n \left( n-1 \right)!}{\left( x-1 \right)!\left( n-x \right)!} p p^{x-1} \left(1-p \right)^{n-x} \\
&= np \sum_{x=1}^{n} {}_{n-1} C_{x-1} p^{x-1} \left(1-p \right)^{n-x} \\
&= np
\end{align*}
となります。当たりの確率と、試行回数の積なのでなんとなく直感に近いのではないでしょうか。
分散
分散についても求めてみます。先程と似たように${}_n C_x$をうまく処理する方法を取るのですが、$E \left( X^{2} \right)$だと処理しにくいので$E\left( X \left( X-1 \right) \right)$を代わりに求めます。
\begin{align*}
E\left( X \left( X-1 \right) \right) &= \sum_{x=0}^{n} x \left( x-1 \right) {}_{n} C_{x} p^{x} \left(1-p \right)^{n-x} \\
&= \sum_{x=0}^{n} x \left( x-1 \right) \frac{n!}{x!\left( n-x \right)!} \left(1-p \right)^{n-x} \\
&= \sum_{x=1}^{n} \frac{n\left( n-1 \right) \left( n-2 \right)!}{\left( x-2 \right)!\left( n-x \right)!} p^{2} p^{x-2} \left(1-p \right)^{n-x} \\
&= n\left( n-1 \right)p^{2} \sum_{x=2}^{n} {}_{n-1} C_{x-1} p^{x-2} \left(1-p \right)^{n-x} \\
&= n\left( n-1 \right)p^{2}
\end{align*}
となることから、
\begin{align*}
\textrm{Var} \left( X \right) &= E \left( X^{2} \right) -\left\{ E \left( X \right) \right\}^{2} \\
&= E\left( X \left( X-1 \right) \right) + E \left( X \right) -\left\{ E \left( X \right) \right\}^{2} \\
&= n\left( n-1 \right)p^{2} + np -n^{2}p^{2} \\
&= np \left( 1-p \right)
\end{align*}
正規分布
正規分布の確率密度関数は以下で与えられます。
f_{X} \left( x \right) = \frac{1}{\sqrt{2 \pi \sigma^{2}}} \exp{ \left\{ - \frac{\left( x - \mu \right)^{2}}{2\sigma^{2}} \right\}}
で与えられます。いままで勉強してきたことを使って、こちらの期待値と、分散、とある確率変数変換をやってみましょう。
期待値
まず期待値を求めてみましょう。文字の置き方からして$\mu$となるのはわかりきっているのですが、それを示します。
\begin{align*}
E\left( X \right) &= \frac{1}{\sqrt{2 \pi \sigma^{2}}} \int_{-\infty}^{\infty} x \exp{ \left\{ - \frac{\left( x - \mu \right)^{2}}{2\sigma^{2}} \right\}} dx \\
&= \frac{1}{\sqrt{2 \pi \sigma^{2}}} \left[ \int_{-\infty}^{\infty} \left(x - \mu\right) \exp{ \left\{ - \frac{\left( x - \mu \right)^{2}}{2\sigma^{2}} \right\}} dx + \mu \int_{-\infty}^{\infty} \exp{ \left\{ - \frac{\left( x - \mu \right)^{2}}{2\sigma^{2}} \right\}} dx \right] \\
\end{align*}
第1項目ですが以下のようになります。
\begin{align*}
& \int_{-\infty}^{\infty} \left(x - \mu\right) \exp{ \left\{ - \frac{\left( x - \mu \right)^{2}}{2\sigma^{2}} \right\}} dx \\
& = \int_{-\infty}^{\infty} \frac{1}{2} \left( \left(x - \mu\right)^{2} \right)^{\prime} \exp{ \left\{ - \frac{\left( x - \mu \right)^{2}}{2\sigma^{2}} \right\}} dx \\
& = \left[ \frac{1}{2} \exp{ \left\{ - \frac{\left( x - \mu \right)^{2}}{2\sigma^{2}} \right\}} \right]_{-\infty}^{\infty} \\
& = 0
\end{align*}
となります。第2項目ですが求めるためにガウス積分
\int_{-\infty}^{\infty} e^{-ax^{2}} dx = \sqrt{ \frac{\pi}{a} }
を利用して求めます。$t = x - \mu $とおくと$dt=dx$で積分区間も$\left[ -\infty, \infty \right]$で変わらないので
\begin{align*}
\int_{-\infty}^{\infty} \exp{ \left\{ - \frac{\left( x - \mu \right)^{2}}{2\sigma^{2}} \right\}} dx &= \int_{-\infty}^{\infty} \exp{ \left\{ - \frac{t^{2}}{2\sigma^{2}} \right\}} dt \\
&= \sqrt{2\pi \sigma^{2}}
\end{align*}
となり、結局$E\left( X \right)$の式に戻すと
E\left( X \right) = \mu
となることがわかると思います。
分散
次に分散を求めてみます。文字の置き方からして$\sigma^{2}$となるのはわかりきっているのですが、それを示します。
\begin{align*}
\textrm{Var}\left( X \right) &= \frac{1}{\sqrt{2 \pi \sigma^{2}}} \int_{-\infty}^{\infty} \left(x - \mu \right)^{2} \exp{ \left\{ - \frac{\left( x - \mu \right)^{2}}{2\sigma^{2}} \right\}} dx \\
\end{align*}
期待値のときと同様に、$t = x - \mu $とおきます。すると
\begin{align*}
\textrm{Var}\left( X \right) &= \frac{1}{\sqrt{2 \pi \sigma^{2}}} \int_{-\infty}^{\infty} t^{2} \exp{ \left\{ - \frac{t^{2}}{2\sigma^{2}} \right\}} dt \\
\end{align*}
となります。こちらの積分ですが、ガウス積分を応用して求めます。先ほどのガウス積分の
\int_{-\infty}^{\infty} e^{-ax^{2}} dx = \sqrt{ \frac{\pi}{a} }
両辺を$a$で微分します。まず左辺は下記のようになります。
\frac{d}{da} \int_{-\infty}^{\infty} e^{-ax^{2}} dx = \int_{-\infty}^{\infty} \frac{\partial}{\partial a}e^{-ax^{2}} dx = - \int_{-\infty}^{\infty} x^{2} e^{-ax^{2}} dx
被積分関数を$a$と$x$の関数とみなしていますので、微分項が積分の中に入ったときに偏微分となることに注意しましょう。右辺も同様に微分すると
\frac{d}{da} \sqrt{ \frac{\pi}{a}}= -\frac{1}{2a} \sqrt{ \frac{\pi}{a}}
となります。よって左辺と右辺を併せて
\int_{-\infty}^{\infty} x^{2} e^{-ax^{2}} dx = \frac{1}{2a} \sqrt{ \frac{\pi}{a}}
となるのでこの結果を使うと
\begin{align*}
\textrm{Var}\left( X \right) &= \frac{1}{\sqrt{2 \pi \sigma^{2}}} \int_{-\infty}^{\infty} t^{2} \exp{ \left\{ - \frac{t^{2}}{2\sigma^{2}} \right\}} dt = \frac{1}{\sqrt{2 \pi \sigma^{2}}} \times \frac{1}{2} \times 2\sigma^{2} \times \sqrt{2 \pi \sigma^{2}} = \sigma^{2}
\end{align*}
となります。
変数変換(標準化)
ここでは正規分布の変数変換として標準化と呼ばれるものを考えます。具体的には
Z = \frac{X - \mu}{\sigma}
という変換となります。こちらは単調増加関数ですので、$x$について解くと、$x=\sigma z + \mu$となり、これをzについて微分すると$\frac{dx}{dz} = \sigma$となることから、正規分布の式より
\begin{align*}
f_{Z} \left( z\right) &= \frac{1}{\sqrt{2 \pi \sigma^{2}}} \exp{ \left\{ - \frac{\left( \sigma z + \mu - \mu \right)^{2}}{2\sigma^{2}} \right\}} \times \sigma \\
&= \frac{1}{\sqrt{2 \pi}} \exp{ \left( - \frac{z^{2}}{2} \right)}
\end{align*}
となりこれは期待値0、分散1の正規分布に従っていることが分かります。こちらは特に標準正規分布と呼ばれていて至る所でよく登場します。よく統計学の教科書などにも積分値の対応表などがあります。例えばこちらなどにもあります。大学生の方や統計検定狙っている方などは使い方をマスターしておくといいかもしれません。
確率変数・分布収束
実際の統計量を求めるための観測などは、何度も実験や測定を繰り返したり、アンケートであればたくさんの人にアンケートをとると思います。いま何らかの実験を何回も繰り返しするものとしましょう。実験はよくわからない同一の分布に従っていて、それぞれの測定がお互いの結果に依存しない(すなわち独立)であるとして、それぞれの確率変数を
X_{1}, X_{2},...,X_{n}
とします。
ここでは、この確率変数列を考え、その収束について見ていきます。ここは踏み込むとかなりいろいろな話がありかつ難易度も高く、これだけで一本の記事では収まらないくらいの分量になるのですが、収束の定義だけ与えてタイトルにもある中心極限定理につなげます。
多変数の確率密度と独立性
ここで先ほどちらっと出てきた独立について定義を与えておきます。
確率変数$X_{1},X_{2},...,X_{n}$が独立であるとは、$\textbf{X} = \left(X_{1},X_{2},...,X_{n} \right)$のように書いたとき
\begin{align*}
f_{\textbf{X}} \left( \textbf{x} \right) &= f_{X_{1}}\left( x_{1} \right)f_{X_{2}}\left( x_{2} \right)...f_{X_{n}}\left( x_{n} \right) \\
&= \prod_{i=1}^{n} f_{X_{i}}\left( x_{i} \right)
\end{align*}
が成り立つことをいいます。要は各々確率変数ごとに確率密度関数が積の形に分離できる状態のことを独立と呼びます。
$X_{i}$の周辺確率密度関数とは
f_{X_{i}} \left( x_{i} \right) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}...\int_{-\infty}^{\infty} f_{\textbf{X}} \left( \textbf{x} \right) dx_{1}dx_{2}...dx_{i-1}dx_{i+1}...dx_{n}
となり、$X_{i}$以外について積分(足し合わせた)関数となります。離散型の場合も同様に定義されます。$X_{i}$の期待値は一変数の場合と同様に
E\left( X_{i} \right) = \int_{-\infty}^{\infty} x_{i} f_{X_{i}} \left( x_{i} \right) dx_{i}
と定義されます。特に独立の場合多次元の確率密度における確率変数の積の期待値は
\begin{align*}
E\left( X_{1}X_{2}...X_{n} \right) &= \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}...\int_{-\infty}^{\infty} x_{1}x_{2}...x_{n} f_{X_{1}}\left( x_{1} \right)f_{X_{2}}\left( x_{2} \right)...f_{X_{n}}\left( x_{n} \right) dx_{1}dx_{2}...dx_{n} \\
&=\int_{-\infty}^{\infty} x_{1} f_{X_{1}}\left( x_{1} \right) dx_{1} \int_{-\infty}^{\infty} x_{2} f_{X_{2}}\left( x_{2} \right) dx_{2}...\int_{-\infty}^{\infty} x_{n} f_{X_{n}}\left( x_{n} \right) dx_{n} \\
&=E\left( X_{1} \right) E\left( X_{2} \right)...E\left( X_{n} \right) \\
&=\prod_{i=1}^{n} E\left( X_{i} \right)
\end{align*}
となり、確率変数の積の期待値はそれぞれの確率変数期待値の積となります。
## 標本平均・標本分散
次にこの確率変数列について平均と分散について与えておきます。多くの場合、分布の平均、分布の分散(それぞれ母平均、母分散といいます)が分かっておらず、観測から推測することとなります。いま標本平均を$\overline{X}$のように書き、以下のように定義します。
\overline{X} = \frac{1}{n}\sum_{k=1}^{n} X_{n}
観測したものを$n$で割っているので世間でいういわゆる平均というものです。不偏標本分散については$\overline{V}$のように書き、以下のように定義されます。
\overline{V} = \frac{1}{n−1}\sum_{k=1}^{n} \left( X_{n} -\overline{X} \right)^{2}
この標本平均と標本分散については、期待値が母集団の平均と分散に一致します(それぞれ母平均、母分散と呼びます)。
\begin{align*}
E \left( \overline{X} \right) &= \mu \\
E \left( V^{2} \right) &= \sigma^{2}
\end{align*}
これらを示していきます。
$E \left( \overline{X} \right)$は以下のように示すことができます。
E \left( \overline{X} \right) = \frac{1}{n} E \left( X_{1} + X_{2} + ... + X_{n} \right) = \frac{1}{n} \sum_{i=1}^{n} E \left( X_{i} \right) = \frac{1}{n} \times n \mu = \mu
より成り立つことが分かります。$E \left( V^{2} \right)$については
\begin{align*}
\sum_{i=1}^{n} \left( X_{i} - \overline{X} \right)^{2} &= \sum_{i=1}^{n} \left( X_{i}^{2} -2X_{i}\overline{X} + \overline{X}^{2} - 2 \mu X_{i} + \mu^{2} + 2 \mu X_{i} - \mu^{2} \right) \\
&= \sum_{i=1}^{n} \left( X_{i} - \mu \right)^{2} + \sum_{i=1}^{n} \left( -2X_{i}\overline{X} + \overline{X}^{2} + 2 \mu X_{i} - \mu^{2} \right) \\
&= \sum_{i=1}^{n} \left( X_{i} - \mu \right)^{2} -2n \overline{X}^{2} + n \overline{X}^{2} + 2n\mu \overline{X}^{2} - n \mu^{2} \\
&= \sum_{i=1}^{n} \left( X_{i} - \mu \right)^{2} - n \left( \overline{X} - \mu \right)^2
\end{align*}
の関係を用います。
\begin{align*}
E \left( V^{2} \right) &= \frac{1}{n-1} E \left( \sum_{i=1}^{n} \left( X_{i} - \overline{X} \right)^{2} \right) \\
&= \frac{1}{n-1} \left\{ \sum_{i=1}^{n} E \left( \left( X_{i} - \mu \right)^{2} \right) -n E \left( \left( \overline{X} - \mu \right)^{2} \right) \right\} \\
&= \frac{1}{n-1} \left\{ \sum_{i=1}^{n} E \left( \left( X_{i} - \mu \right)^{2} \right) -n E \left( \left( \frac{1}{n} \sum_{i=1}^{n} X_{i} - \mu \right)^{2} \right) \right\} \\
&= \frac{1}{n-1} \left[ \sum_{i=1}^{n} E \left( \left( X_{i} - \mu \right)^{2} \right) -n E \left( \left\{ \frac{1}{n} \sum_{i=1}^{n} \left( X_{i} - \mu \right)\right\}^{2} \right) \right] \\
&= \frac{1}{n-1} \left\{ \sum_{i=1}^{n} E \left( \left( X_{i} - \mu \right)^{2} \right) - \frac{1}{n} \sum_{i=1}^{n} E \left( \left( X_{i} - \mu \right)^{2} \right) \right\} \\
&= \frac{1}{n-1} \left( \sum_{i=1}^{n} \sigma^{2} - \frac{1}{n} \sum_{i=1}^{n} \sigma^{2} \right) \\
&= \frac{1}{n-1} \left( n-1\right) \sigma^{2} \\
&= \sigma^{2}
\end{align*}
のように示すことができます。
少し復習(数列の極限)
少し、数列の極限について考えてみましょう。無限級数が収束するとは$a_{n}$に対して、
\lim_{n\rightarrow \infty} a_{n}
について考えることでした。
\lim_{n\rightarrow \infty} a_{n} = 2
といえば、数列$a_{n}$は$n$が十分遠くなると、限りなく2に近くことを意味します。これの確率分布版を考えるのが今後の目標となります。
確率収束
確率変数列$X_{1}, X_{2},...$が$X$に確率収束するとは以下のように定義されます。
\lim_{n\rightarrow \infty} P \left( \left| X_{n} - X \right| > \varepsilon \right) = 0 \quad ^{\forall}\varepsilon \in \mathbb{R}, \quad \varepsilon > 0
こちらですが、どんな$\varepsilon > 0$についても、$n$が十分に大きいと$P \left( \left| X_{n} - X \right| > \varepsilon \right)$が0に近づくという意味となります。$\left| X_{n} - X \right|$は$X_{n}$と$X$の差となりますので、$X_{n}$と$X$の差が少しでもある($\varepsilon$が0より大きい任意の数なのでどんなに小さくとっても0よりは大きい)確率が0ということになります。慣習上以下のように表します。
X_{n} \xrightarrow{p} X
分布収束(法則収束)
確率変数列$X_{1}, X_{2},...$が$X$に分布収束するとは以下のように定義されます。
\lim_{n\rightarrow \infty} P \left( X_{n} \leq x \right) = P \left( X \leq x \right) = F_{X} \left(x \right)
つまりこちらはさきほどの確率収束の分布関数版と考えていただければと思います。こちらも慣習上
X_{n} \xrightarrow{d} X
のように表します。この分布収束の一つの例が今回のテーマにもなっている中心極限定理になります。
中心極限定理
確率変数列$X_{1}, X_{2},...$が同一分布で互いに独立であるとき以下の分布収束が成り立つことを中心極限定理と呼びます。
\lim_{n\rightarrow \infty} P \left( \frac{\sqrt{n}\left( \overline{X} - \mu \right)}{\sigma} \leq x \right) = \int_{-\infty}^{x} \frac{1}{\sqrt{2 \pi}} \exp{ \left( - \frac{t^{2}}{2} \right)} dt
が成り立ちます。つまり$\frac{\sqrt{n}\left( \overline{X} - \mu \right)}{\sigma}$が標準正規分布の分布関数に分布収束するという定理になります。こちらの証明ですが先ほど変数変換$Z = \frac{X - \mu}{\sigma}$を思い出しましょう。ここから$\lim_{n\rightarrow \infty} P \left( \sqrt{n}\overline{Z} \leq x \right)$が標準正規分布の分布関数に分布収束すればいいことが分かります。
また、ここで証明のために特性関数を導入します。特性関数は確率密度関数のフーリエ(逆)変換にあたり(知らない方は気にしないでください)、
\phi_{X} \left( t\right) = E \left(e^{itX} \right) =\int_{-\infty}^{\infty} e^{itx} f_{X} \left(x \right) dx
で与えられます。$i$は虚数単位です。特性関数を$t$で微分すると
\begin{align*}
\phi_{X}^{\prime} \left( t\right) &= \frac{d}{dt} \int_{-\infty}^{\infty} e^{itx} f_{X} \left(x \right) dx \\
&= \int_{-\infty}^{\infty} ix e^{itx} f_{X} \left(x \right) dx
\end{align*}
よって$t=0$とすると
\phi_{X}^{\prime} \left( 0\right)= i \int_{-\infty}^{\infty} x f_{X} \left(x \right) dx = i E \left( X \right)
となり、これを繰り返すると
\phi_{X}^{\left( n \right)} \left( 0\right) = i^{n} E \left( X^{n} \right)
となることから
E \left( X^{n} \right) = \frac{1}{i^{n}} \phi_{X}^{\left( n \right)} \left( 0\right)
が成り立ちます。この結果を後ほど用います。
中心極限定理の話に戻ります。$\sqrt{n} \overline{Z}$の特性関数は
\sqrt{n} \overline{Z} = \frac{1}{\sqrt{n}} \left( Z_{1}+Z_{2}+...+Z_{n} \right)
とかけるので
\begin{align*}
\phi_{\overline{Z}} \left( t\right) &= E \left( e^{it\overline{Z}} \right) \\
&= E \left( e^{it\frac{1}{\sqrt{n}} \left( Z_{1}+Z_{2}+...+Z_{n} \right)} \right) \\
&= \left(E \left( e^{i\frac{t}{\sqrt{n}}Z} \right) \right)^{n}
\end{align*}
指数の和が積になる、それぞれの確率変数が独立であることを使っています。これを$\frac{t}{\sqrt{n}}$の関数とみて、$\phi \left( \frac{t}{\sqrt{n}} \right)$とし、これをマクローリン展開すると
\phi \left( \frac{t}{\sqrt{n}} \right) = \phi \left( 0 \right) + \frac{t}{\sqrt{n}} \phi^{\prime} \left( 0 \right) + \frac{t^{2}}{2n} \phi^{\prime \prime} \left( 0 \right) + ...
$\phi \left( 0 \right)$は$\phi \left( 0 \right)=E \left( 1 \right)=1$となります。$\phi^{\prime} \left( 0 \right) = \frac{1}{i}E \left( Z \right)$ですが、$Z$は標準正規分布の期待値なので、$0$となります。$\phi^{\prime \prime} \left( 0 \right) = \frac{1}{i^{2}}E \left( Z^{2} \right) = - \left( \textrm{Var} \left( Z \right) + E \left( Z \right)^{2} \right) = - 1$から、$n$が十分に大きいと
\phi \left( \frac{t}{\sqrt{n}} \right) = 1- \frac{t^{2}}{2n} + ... \simeq 1- \frac{t^{2}}{2n}
となりますので、
\begin{align*}
\phi_{\overline{Z}} \left( t\right) & \simeq \left( 1- \frac{t^{2}}{2n} \right)^{n}\\
&\rightarrow e^{-\frac{t^{2}}{2}}
\end{align*}
他方で、標準正規分布の特性関数は
\begin{align*}
\phi_{Z} \left( t\right) &= \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} e^{itz}e^{\frac{-z^{2}}{2}} dz \\
&= \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} \exp{\left\{ -\frac{1}{2} \left( z - it\right)^{2} - \frac{t^{2}}{2} \right\}} dz \\
&= \frac{1}{\sqrt{2\pi}} e^{-\frac{t^{2}}{2}} \int_{-\infty}^{\infty} \exp{\left\{ -\frac{1}{2} \left( z - it\right)^{2} \right\}} dz \\
&= \frac{1}{\sqrt{2\pi}} e^{-\frac{t^{2}}{2}} \sqrt{2\pi} \\
&=e^{-\frac{t^{2}}{2}}
\end{align*}
となるので、これが先程の$\sqrt{n} \overline{Z}$と一致します。
よって$\lim_{n\rightarrow \infty} P \left( \sqrt{n}\overline{Z} \leq x \right)$が収束する分布が標準正規分布であるということがわかります。このことから、平均(和)が正規分布に収束していくということが保証されているわけです。ここまで大変お疲れ様でした。最後に二項分布の正規分布への収束の例を見て終えたいと思います。
例
今回は次のような問題を考えてみます。
"新井さんと金本さんがコイン投げで勝負をしている。コインを$n$回($n$は奇数)投げ、$\frac{n+1}{2}$以上表が出れば新井さんの勝ち、それ以下なら金本さんの勝ちとする。負けるといじめられるのが怖かった新井さんは勝負の前に、表が出やすいようにコインを改造し0.55の確率で表が出るようにした。新井さんの努力も虚しく金本さんが勝つ確率はいくらか。"
コインで表が出る確率を$p$とおき、表が出る回数を$x$回とすれば、$n$コイン投げした時の金本さんが勝つ確率は
\begin{align*}
P \left( X \leq \frac{n-1}{2} \right) = F_{X} \left( \frac{n-1}{2} \right) = \sum_{i=0}^{\frac{n-1}{2}} {}_{n} C_{x} p^{x} \left(1-p \right)^{n-x}
\end{align*}
せっかくなのでこれを直接求めてみましょう。$n=101$のときのPythonの実装例を示します。
import numpy as np
n = 101
p = 0.55
prob = 0
range_ = (n +1 ) //2
def log_comb(n, x):
if x == 0:
return 0
r = x if n >= x*2 else n-x
nominator = np.log(np.arange(1, r+1))
numerator = np.log(np.arange(n+1-r ,n+1))
return np.sum(numerator) - np.sum(nominator)
for idx in range(0, range_):
# logとって計算する
log_p = log_comb(n, idx) + idx * np.log(p) + (n-idx)* np.log((1-p))
prob += np.exp(log_p)
print(prob)
簡単にコードを解説しておくと二項分布の$x=0,1,2...$とfor文で計算していくだけなのですが、極端に大きい値や小さい値を取ってしまうのでオーバーフロー、アンダーフローを恐れて、確率関数に$\textrm{log}$を取って計算します。組み合わせの部分も数が大きくなるので、分母分子それぞれ必要な数のarangeで配列を作り、logを取った結果で(分母)-(分子)とやって求めます(もっといい実装ありそうですが)。
次に、これを正規分布での近似で考えてみます。確率変数を次のように置くことにします。
\begin{align}
表が出る: & P \left( X=1 \right) = p \\
裏が出る: & P \left( X=0 \right) = 1-p
\end{align}
となります。このとき、金本さんが勝つためには表が出る回数が半分より少ない、すなわち$\overline{X} < \frac{1}{2}$となることがわかります。また、
Z=\frac{\sqrt{n}\left( \overline{X} - p \right)}{\sqrt{p\left(1-p \right)}}
が$n$が十分大きい時に成立します。ここから今求めたい確率は以下のように展開できます。
\begin{align}
P \left( \overline{X} < \frac{1}{2} \right) &= P \left( p + \frac{1}{\sqrt{n}}\sqrt{p\left(1-p \right)}Z < \frac{1}{2} \right) \\
&=P \left( Z < \frac{\sqrt{n}\left( \frac{1}{2} -p \right)}{\sqrt{p\left( 1 -p \right)}}\right)
\end{align}
from scipy.stats import norm
n = 101
p = 0.55
alpha = (np.sqrt(n)*(0.5-p))/ np.sqrt((p*(1-p)))
result = norm.cdf(alpha, loc=0, scale=1)
print(result)
求めた結果は、このようになりました。
十分大きいところでは、ほとんど変わらない結果になっていると思います。
n | 二項分布 | 正規分布近似 |
---|---|---|
3 | 0.4252499999999999 | 0.43090221652450533 |
5 | 0.4068731249999997 | 0.41109338361900905 |
11 | 0.36687741917115235 | 0.3694413401817635 |
101 | 0.15624460036219526 | 0.1562355470920021 |
1001 | 0.0007553919118171471 | 0.0007368904219375631 |
# まとめ
今回は数理統計の確率の部分について概観してみました。
なかなか計算も煩雑で、骨の折れる分野なのですが、私自身勉強し直してみて学生時代には気づかなかったようなことにも沢山気づいたり、当時はただ計算しているだけだったのが実用をある程度やっているせいか、イメージがつきやすかったりしました。この記事が読んでくださったみなさんの何かの役に立ちますと幸いです。
大変長い記事となりましたが、最後まで読んでいただきありがとうございました!!