Help us understand the problem. What is going on with this article?

CGのための確率 後編

More than 1 year has passed since last update.

これは前回「CGのための確率 前編」のつづきです.

確率分布

これまで,ある事象が起こる確率を求めてきました.事象ごとの確率を取り扱うときに,事象に対応した実数を変数として,その変数に対応した確率が与えられるようにします.このような変数を確率変数といい,$X,Y$などの大文字で表します.ある試行の結果(つまり事象)$\omega$によって$X$の値が決まる場合,$X(\omega)$とすれば,その事象が起こる確率が与えられます.例えば,サイコロの出目を確率変数とすると,$X$は${1,2,3,4,5,6}$の値をとれることになります.ここで,確率変数とその確率を表にまとめると次のようになります.

2018-11-25_18h14_18.png

このような表を確率分布表といいます.確率分布表を見るとすべての事象に対して確率がどのように分布しているかがわかります.このサイコロの例で見ると確率が均等になっています.例えば確率変数が$1$のときの確率は

    P(X=1) = \frac{1}{6}

と表記することができます.

確率変数は実数の値をとりますが,たとえばコインの表裏など直接数値に対応していない場合があります.その場合は表を$1$
,裏を$0$として対応させます.すると

    P(X=1) = \frac{1}{2}, \quad P(X=0) = \frac{1}{2}

となります.確率変数はサイコロの出目やコインの表裏などのように離散の値や,連続した値をとることができます.例えば,確率変数が身長の値をとるとき,$P(170.1 \leq X \leq 175.8)$とすれば170.1~175.8の確率が得られます.

離散の確率変数に対して,$X$が$x_i(i=1,2,\ldots,n)$となる確率を

    P(X=x_i) = p_i

という関係にあるとき,確率は関数の形で

    f(x) = \begin{cases}
         p_i & \quad (x=x_i) \\
         0 & \quad (x\neq x_i)
    \end{cases}

と書けます.このような関数を確率密度関数(probability density function:pdf)といいます.
すべての確率の和は$1$なので

    \sum_{i=1}^{n} f(x_i) = 1 \qquad f(x_i) \geq 0

が成り立ちます.また,確率変数$X$のとる値が$x$以下である確率について

    F(x) = P(X\leq x)

という関数を考えることができます.このような関数を累積分布関数(cumulative distribution function:cdf)といいます.

例えば,サイコロを振ったときの確率密度関数と累積分布関数のグラフは次のようになります.

2018-11-25_18h14_28.png

次に確率変数が連続の場合,離散と同じように確率密度関数と分布関数を考えることができます.確率変数の値の範囲が$a\leq x \leq b$だとすると,$X$が$x$と$x+\Delta x$の間にある確率は

    P(x\le X \leq x+\Delta x) = \int_{x}^{x+\Delta x} f(u)du

となるような関数$f(x)$が連続の確率密度関数です.ここで$\Delta x$が小さいとき,積分は面積で近似できるので

    P(x\le X \leq x+\Delta x) \doteqdot f(x)\Delta x

と書くことができます.連続でもすべての確率の和は$1$であるので,

    \int_{a}^{b} f(x)dx = 1

が成り立ちます.また,区間$a\leq x \leq b$に含まれていない場合は$f(x)=0$として,

    \int_{-\infty}^{\infty} f(x)dx = 1

と書くこともできます.次に,連続の累積分布関数は次のようになります.

    F(x) = \int_{-\infty}^{x} f(u)du

連続の確率密度関数と累積分布関数の例として正規分布(後で詳しく出てきます)のグラフは次のようになります.

2018-11-25_18h14_37.png

離散の確率密度関数と連続の確率分布関数の違いを確認してみると,離散の確率密度関数では,ある確率変数の確率が

    p(X=x_i) = f(x_i)

の関係になりますが,連続の場合

    p(a\leq x \leq a) = p(x=a) = \int_{a}^{a}f(x)dx = 0

となって

    p(x=a) \neq f(a)

ということになります.また,離散と連続の累積分布関数$F(x)$を微分すると$f(x)$が得られます.

    f(x) = \frac{dF(x)}{dx}

これはグラフ上の累積分布関数$F(x)$の曲線上の各点での勾配が,確率密度関数$f(x)$の値になっていることを意味しています.

ここで次のような確率密度関数を考えてみます.

    f(x) = \begin{cases}
        c & \quad (|x|\leq 1) \\
        0 & \quad (|x|> 1)
    \end{cases}

この分布は確率変数$X$が-1から1までの範囲で確率密度が一定($c$)であり,特に一様分布といいます.確率密度関数は

    \int_{-\infty}^{\infty} f(x)dx = 1

を満たす必要があるため

    \int_{-\infty}^{\infty} f(x)dx =
    \int_{-1}^{1}cdx = 
    [cx]_{-1}^{1} = c-(-c) = 2c = 1
    \therefore c = \frac{1}{2}

区間$-1 < x < 1$のとき,$f(x)=1/2$なので,累積分布関数は

    F(x) = \int_{-\infty}^{x}f(y)dy
    = \int_{-1}^{x}\frac{1}{2}dy
    = \left[\frac{1}{2}y\right]_{-1}^{x}
    = \frac{1}{2}x-\left(-\frac{1}{2}\right)
    = \frac{1}{2}(x+1)

となります.$-1 < x < 1$の区間で$f(x)=1/2$を積分すれば

    F(x) = \int_{-1}^{1}\frac{1}{2}dx = \left[\frac{1}{2}\right]_{-1}^{1} = \frac{1}{2}-\left(\frac{1}{2}\right) = 1

となって確率が$1$となっています.この確率密度関数と累積分布関数のグラフは次のようになります.

2018-11-25_18h14_45.png

この一様分布では区間が$-1<x<1$なので,任意の区間$a\leq x \leq b$を考えてみます.つまり,

    f(x) = c \qquad (a\leq x \leq b)

まず,確率密度関数は負の値にならないので

    f(x) = c \geq 0

となって

    \int_{-\infty}^{\infty}f(x)dx = \int_{a}^{b}cdx = \left[cx\right]_{a}^{b} = c(b-a) = 1

より

    c = \frac{1}{b-a} \qquad f(x) = \frac{1}{b-a}

となります.今度は次のような確率密度関数を考えてみます.

    f(x) = \begin{cases}
        ce^{-x} & \quad (x \geq 0) \\
        0 & \quad (x < 0)
    \end{cases}

まず,確率密度関数は負の値にならないので

    f(x) = ce^{-x} \geq 0 \qquad \therefore c \geq 0

となります.次に

\begin{align*}
    \int_{-\infty}^{\infty}fxdx &= \int_{0}^{\infty}ce^{-x}dx = \left[-ce^{-x}\right]_{0}^{\infty} \\
    &= \lim_{x\to\infty}\left(-ce^{-x}\right) - \lim_{x\to 0}\left(-ce^{-x}\right) = 0-(-c) = c = 1
\end{align*}

よって

    f(x) = e^{-x}

となります.これをより一般的にした場合

    f(x) = \begin{cases}
        ce^{-\lambda x} & \quad (x \geq 0) \\
        0 & \quad (x < 0)
    \end{cases}

となって,$c$を求めると

\begin{gather*}
    \int_{0}^{\infty}ce^{-\lambda x}dx = \left[\frac{ce^{-\lambda x}}{-\lambda}\right]_{0}^{\infty}
    = \frac{c}{\lambda} = 1 \\
    \therefore c = \lambda
\end{gather*}

したがって,この確率密度関数は

    f(x) = \lambda e^{-\lambda x}

そして,累積分布関数は

    F(x) = \int_{-\infty}^{x}f(y)dy
    = \int_{0}^{x}\lambda e^{-\lambda y}dy
    = \left[\frac{\lambda e^{-\lambda y}}{-\lambda}\right]_{0}^{x}
    = \left[-e^{-\lambda y}\right]_{0}^{x}
    = 1-e^{-\lambda x}

となります.このような確率分布を指数分布といいます.このグラフは次のようになります.

2018-11-25_18h14_54.png

期待値と分散

確率密度関数がわかれば確率変数に対応した確率が求まりました.また,確率変数とその確率がわかれば,確率の分布がわかるようになります.確率分布を代表する値としてその平均値 $\mu$ を考えると,離散の場合

    \mu = \sum_{i=1}^{n} x_i f(x_i)

連続の場合は

    \mu = \int_{-\infty}^{\infty} xf(x)dx

となります.この平均値を特に期待値といい,確率変数$X$の期待値を$E[X]$と表します.つまり$\mu = E[X]$です.以降は$\mu$も$E[X]$と同じ期待値として扱います.

例えば,サイコロの出目を確率変数とした場合,$x_1=1,x_2=2,\ldots,x_6=6$で,$f(x_i)=1/6$なので,その期待値は

    \mu = 1\times \frac{1}{6}
    + 2\times \frac{1}{6}
    + 3\times \frac{1}{6}
    + 4\times \frac{1}{6}
    + 5\times \frac{1}{6}
    + 6\times \frac{1}{6}
    = \frac{21}{6} = 3.5

となります.また,サイコロの出目の平均値$\overline{x}$を求めると

    \overline{x} = \frac{1+2+3+4+5+6}{6} = 3.5

となって,期待値と一致します.つまり,$x$にそれ
が出る確率をかけて足したものは,$x$の平均値となります.

    \overline{x} = E[X]

次に宝くじの場合を考えてみます.この宝くじは1枚100円で,1等が1万円,2等が1000円,3等が200円とします.全部で1000枚の宝くじがあり,1等は1枚,2等が10枚,3等は100枚あるとします.1等,2等,3等の当たる確率はそれぞれ

    \frac{1}{1000}, \quad \frac{10}{1000} = \frac{1}{100}, \quad \frac{100}{1000} = \frac{1}{10}

となります.この期待値を求めると

    \mu = 10000\times \frac{1}{1000}
    + 1000\times \frac{1}{100}
    + 200\times \frac{1}{10}
    = 10+10+20 = 40

となって,この宝くじは一本あたり40円期待できると考えられます.何枚も宝くじを購入してもこの期待値は変わりませんが,宝くじが当たる確率は上がっていきます.

それでは次の確率密度関数の期待値を求めてみます.

    f(x) = \begin{cases}
        xe^{^x} & \quad (x\geq 0) \\
        0 & \quad (x < 0)
    \end{cases}

この確率変数は連続で指数分布に従っています.よって期待値は

    \mu = \int_{-\infty}^{\infty} xf(x)dx = \int_{0}^{\infty}x^2e^{-x}dx

となります.これは部分積分

    \int_{a}^{b} f(x)g'(x)dx =
    \left[f(x)g(x)\right]_{a}^{b} - \int_{a}^{b}f'(x)g(x)dx

を利用して,$f(x)=x^2, g'(x)=e^{-x}$とすると$f'(x)=2x,g(x)=-e^{-x}$だから

\begin{align*}
    \mu &= \int_{0}^{\infty}x^2e^{-x}dx \\
    &= \left[x^2(-e^{-x})\right]_{0}^{\infty}
    - \int_{0}^{\infty} 2x(-e^{-x})dx \\
    &= (0-0) - 2\int_{0}^{\infty}x(-e^{-x})dx \\
    &= 2\int_{0}^{\infty}x(e^{-x})dx
\end{align*}

もう一度部分積分を使って

\begin{align*}
    \mu &= 2\left(
        \left[x(-e^{-x})\right]_{0}^{\infty}
        - \int_{0}^{\infty}-e^{-x}dx\right) \\
        &= 2\int_{0}^{\infty}e^{-x}dx \\
        &= 2\left[-e^{-x}\right]_{0}^{\infty} = 2\times \{0-(-1)\} \\
        &= 2
\end{align*}

となります.この確率密度関数は図5のようなグラフになります.

2018-11-25_18h15_03.png

ここで次のような関数を考えてみます.

    f(x) = \begin{cases}
        \displaystyle\int_{0}^{\infty} t^{x-1}e^{-t}dt & \quad (x\geq 0) \\
        0 & \quad (x<0)
    \end{cases}

$x$に$n+1$を代入して,部分積分を利用すると

\begin{align*}
    f(x) &= \int_{0}^{\infty} t^{x-1}e^{-t}dt \\
    f(n+1) &= \int_{0}^{\infty} t^{n}e^{-t}dt \\
    &= \left[-t^{n}e^{-t}\right]_{0}^{\infty}
    + n\int_{0}^{\infty} t^{n-1}e^{-t}dt \\
    &= n\int_{0}^{\infty}t^{n-1}e^{-t}dt \\
    &= nf(n)
\end{align*}

となって

    f(n+1) = nf(n)

という漸化式が得られます.この関数をガンマ関数といい,$\Gamma (x)$と書きます.ガンマ関数は

    \Gamma(x) = \int_{0}^{\infty} t^{x-1}e^{-t}dt

でしたので,$x=1$とすると

    \Gamma(1) = \int_{0}^{\infty} e^{-t}dt = \left[-e^t\right]_{0}^{\infty} = 1

となります.ガンマ関数は

    \Gamma(n+1) = n\Gamma(n)

の関係から$x$に正の整数を選ぶと

\begin{align*}
    \Gamma(2)&=1\Gamma(1)=1 \\
    \Gamma(3)&=2\Gamma(2)=2\cdot 1 \\
    \Gamma(4)&=3\Gamma(3)=3\cdot 2\cdot 1
\end{align*}

となって

    \Gamma(n+1) = n\times(n-1)\times(n-2)\times\cdots\times 3\times 2 \times1 = n!

と階乗になります.そのため,ガンマ関数のことを階乗関数とも呼びます.

話を少し戻すと,確率密度関数が$xe^x$である指数分布の期待値は

    \mu = \int_{0}^{\infty}x^2e^{-x}dx = 2

でした.これは

    \Gamma(3) = \int_{0}^{\infty}t^{2}e^{-t}dt

と一致するので

    \mu = \Gamma(3) = 2! = 2

となります.計算が簡単になりますね.
せっかくなので,ガンマ関数についてもう少し見ていきましょう.例えばガンマ関数で実数$x=1/2$とすると

    \Gamma\left(\frac{1}{2}\right) = \int_{0}^{\infty}t^{\frac{1}{2}}e^{-t}dt

ここで$t=u^2$とおくと$dt=2udu$なので

    \Gamma\left(\frac{1}{2}\right) = 2\int_{0}^{\infty}\frac{u}{\sqrt{u^2}}e^{-u^2}du = 2\int_{0}^{\infty}e^{-u^2}du

と変形できます.この積分はガウス積分(後で詳しく出てきます)なので

    \int_{0}^{\infty}e^{-u^2}du = \frac{\sqrt{\pi}}{2}

となります.よって

    \Gamma\left(\frac{1}{2}\right) = \sqrt{\pi}

となります.ガンマ関数の漸化式

    \Gamma(n+1) = n\Gamma(n)

を利用すれば

    \Gamma\left(\frac{3}{2}\right)
    = \Gamma\left(\frac{1}{2}+1\right)
    = \frac{1}{2}\Gamma\left(\frac{1}{2}\right)
    = \frac{\sqrt{\pi}}{2}

と計算することができます.また,$n$を正の整数とすれば

    \Gamma\left(n+\frac{1}{2}\right) = 
    \frac{(2n)!}{2^{2n}n!}\sqrt{\pi}

の関係が成り立ちます.

ガンマ関数として関係して,ベータ関数というのがあります.ベータ関数は$B(\alpha,\beta)$で表し

    B(\alpha,\beta) = \int_{0}^{1}x^{a-1}(1-x)^{\beta-1}dx \quad (\alpha>0, \beta>0)

と定義されます.ベータ関数とガンマ関数は

    B(\alpha,\beta) = \frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}

という関係になっています.ここで,$\alpha,\beta$ともに正の整数$n,m$であるとき

\begin{align*}
    \frac{1}{B(\alpha,\beta)} &= \frac{\Gamma(n+m)}{\Gamma(n)\Gamma(m)} = \frac{(n+m-1)!}{(n-1)!(m-1)!} \\
    &= n{}_{n+m-1}C_{m-1} =  m{}_{n+m-1}C_{n-1}
\end{align*}

と書くことができます.ガンマ関数では階乗,ベータ関数の逆数は組合せを整数ではないものに拡張したものと考えることもできます.

ガンマ関数とベータ関数はこれぐらいにして次に進みましょう.

確率変数とその確率分布から期待値が求まりました.その期待値と確率変数$X$との差を偏差といいます.式で表すと$X-\mu$となります.次に偏差の総和を求めてみます.例えば,サイコロの出目で考えると期待値は$3.5$だったので

\begin{gather*}
    (1-3.5)+(2-3.5)+(3-3.5)+(4-3.5)+(5-3.5)+(6-3.5) = \\
    \quad (-2.5)+(-1.5)+(-0.5)+0.5+1.5+2.5 = 0
\end{gather*}

と$0$になってしまいます.そこで偏差の平方$(X-\mu)^2$の総和を求めると

\begin{gather*}
    (1-3.5)^2+(2-3.5)^2+(3-3.5)^2+(4-3.5)^2+(5-3.5)^2+(6-3.5)^2 = \\
    \quad 6.25+2.25+0.25+0.25+2.25+6.25 = 17.5
\end{gather*}

となって意味のある値となりました.この偏差の平方の期待値を求めてみると

    E[(X-\mu)^2] = \sum_{i=1}^{n}(x_i-\mu)^2 f(x_i)

となります.これは離散のときで,連続の場合は

    E[(X-\mu)^2] = \int_{-\infty}^{\infty} (x-\mu)^2 f(x)dx

となります.この値を分散といい,確率変数$X$の分散を$V[X]$と書きます.よって

    V[X] = E[(X-\mu)^2]

となります.また,分散の平方根を標準偏差といい,$\sigma$と書きます.すると

    \sigma = \sqrt{V[X]} = \sqrt{E[(X-\mu)^2]}, \quad \sigma^2 = V[X]

という関係になって,$\sigma^2$は分散ということになります.分散は偏差の平方の期待値つまり平均なので,確率変数$X$が平均を中心に,どれくらいばらついているかを表しています.図6は分散のばらつきの関係を表しています.

2018-11-25_18h15_13.png

分散は

    E[(X-\mu)^2] = \int_{-\infty}^{\infty} (x-\mu)^2 f(x)dx

なので,右辺を展開すると

\begin{align*}
    E[(X-\mu)^2] &= \int_{-\infty}^{\infty} (x^2-2x\mu+\mu^2)f(x)dx \\
    &= \int_{-\infty}^{\infty}x^2 f(x)dx
    - 2\mu\int_{-\infty}^{\infty}x f(x)dx
    + \mu^2\int_{-\infty}^{\infty} f(x)dx \\
    &= E[x^2]-2\mu E[x] + \mu^2 \\
    &= E[x^2]-2\mu^2 + \mu^2 \\
    &= E[x^2]-\mu^2
\end{align*}

よって

    E[(X-\mu)^2] = E[X^2] - \mu^2 = E[X^2]-(E[X])^2

という関係が成り立ちます.

それではいくつかの分散を求めてみます.まずはサイコロ振りの場合,$\mu=3.5$なので

\begin{align*}
    \sigma^2 &= (1-3.5)^2\times \frac{1}{6}
        + (2-3.5)^2\times \frac{2}{6}
        + (3-3.5)^2\times \frac{3}{6} \\
        & \quad 
        + (4-3.5)^2\times \frac{4}{6}
        + (5-3.5)^2\times \frac{5}{6}
        + (6-3.5)^2\times \frac{6}{6} \\
    &= (2.5)^2\times\frac{1}{3}
       + (1.5)^2\times\frac{1}{3}
       + (0.5)^2\times\frac{1}{3} \\
    &= \frac{8.75}{3} \Doteq 2.92
\end{align*}

また,$\sigma \Doteq \sqrt{2.92} \Doteq 1.71$となります.

今度は期待値のところで出てきた次の確率密度関数

    f(x) = \begin{cases}
        xe^{^x} & \quad (x\geq 0) \\
        0 & \quad (x < 0)
    \end{cases}

この確率分布の分散を求めると,$\mu=2$なので

    \sigma^2 = \int_{0}^{\infty}(x-2)^2xe^{-x}dx = \int_{0}^{\infty} (x^3-4x^2+4x)e^{-x}dx

ここで,ガンマ関数

    \Gamma(x) = \int_{0}^{\infty} t^{x-1}e^{-t}dt

を使うと

    \sigma^2 = \Gamma(4)-4\Gamma(3)+4\Gamma(2)
    = 3!-4\cdot 2!+4\cdot 1! = 2

また,$\sigma = \sqrt{2} \Doteq 1.41$です.

それでは,一般的な指数分布の期待値と分散も求めてみます.指数分布の確率密度関数は

    f(x) = \begin{cases}
        \lambda e^{-\lambda x} & \quad (x \geq 0) \\
        0 & \quad (x < 0)
    \end{cases}

です.まず期待値は

    \mu = \int_{-\infty}^{\infty} xf(x)dx = \int_{0}^{\infty}x \lambda e^{-\lambda x}dx

ですので,部分積分を利用すると

    \int_{0}^{\infty}x\lambda e^{-\lambda x}dx = 
    \left[-\frac{x}{\exp(\lambda x)}\right]_{0}^{\infty} + \int_{0}^{\infty}e^{-\lambda x}dx

となり,この右辺の第1項の中の極限は

    \lim_{x\to\infty}\frac{x}{\exp(\lambda x)} = \frac{\infty}{\infty}

となって不定形となるので,この場合,分母と分子それぞれの極限を求めて

    \lim_{x\to\infty}\frac{x}{\exp(\lambda x)} = 
    \lim_{x\to\infty}\frac{(x)'}{\{\exp(\lambda x)\}'} =
    \lim_{x\to\infty}\frac{1}{\lambda \exp(\lambda x)} = 0

よって

    \mu = \int_{0}^{\infty}x\lambda e^{-\lambda x}dx = 
    \int_{0}^{\infty}e^{-\lambda x}dx =
    \left[-\frac{\exp(-\lambda x)}{\lambda}\right]_{0}^{\infty} = \frac{1}{\lambda}

次に$x^2$の期待値を求めます.

    E[x^2] = \int_{-\infty}^{\infty}x^2 f(x)dx = \int_{0}^{\infty}x^2 \lambda \exp(-\lambda x)dx

ですから,部分積分を使って

\begin{align*}
    \int_{0}^{\infty}x^2 \lambda \exp(-\lambda x)dx &= 
    \left[-\frac{x^2}{\exp(\lambda x)}\right]_{0}^{\infty} + \int_{0}^{\infty} x^2 \lambda \exp(-\lambda x)dx \\
    &= 0 + \int_{0}^{\infty} x^2 \lambda \exp(-\lambda x)dx \\
    &= \int_{0}^{\infty} x^2 \lambda \exp(-\lambda x)dx
\end{align*}

もう一度,部分積分を使うと

\begin{align*}
    \int_{0}^{\infty} x^2 \lambda \exp(-\lambda x)dx
     &= \left[-\frac{2x}{\lambda\exp(-\lambda x)}\right]_{0}^{\infty} + 2\int_{0}^{\infty}\frac{\exp(-\lambda x)}{\lambda} dx \\
    &= 2\left[-\frac{\exp(-\lambda x)}{\lambda^2}\right]_{0}^{\infty} = \frac{2}{\lambda ^2}
\end{align*}

よって,分散は

    V[X] = E[x^2] - \mu^2 = \frac{2}{\lambda^2}-\left(\frac{1}{\lambda}\right)^2 = \frac{1}{\lambda^2}

となります.

チェビシェフの不等式

確率変数と確率分布から,期待値と分散を求めることができました.ここで,確率分布が分からない場合でも,確率変数から平均値と分散を求めることができます.期待値は平均値と同じです.このとき,ある確率変数の確率について,どれくらいか見当をつけられないでしょうか.例えば,期末テストの数学の結果から平均と分散がわかったとして,平均点の$\pm 10$に入る確率はどのくらいになるかを考えてみます.

まず,分散を求める式は

    \sigma^2 = \int_{-\infty}^{\infty}(X-\mu)^2 f(x)dx

$(X-\mu)^2$は平方なので常に正の値,そして確率密度関数$f(x)$も$f(x)\geq0$なので,この積分は常に正の値となります.ここで,$\mu-k\sigma$から$\mu+k\sigma$までの積分の値を取り除きます.つまり,積分領域を3つに分けて

    \sigma^2 = 
    \int_{-\infty}^{\mu-k\sigma}(X-\mu)^2 f(x)dx
    + \int_{\mu-k\sigma}^{\mu+k\sigma}(X-\mu)^2 f(x)dx
    + \int_{\mu+k\sigma}^{\infty}(X-\mu)^2 f(x)dx

この式から第2項の積分を取り除くと,元の値以下となるので不等号がつきます

    \sigma^2 \geq 
    \int_{-\infty}^{\mu-k\sigma}(X-\mu)^2 f(x)dx
    + \int_{\mu+k\sigma}^{\infty}(X-\mu)^2 f(x)dx

次に,$(X-\mu)^2$の$X$に$\mu-k\sigma$と$\mu+k\sigma$を代入すると

    (\mu-k\sigma-\mu)^2 = k^2\sigma^2, \quad (\mu+k\sigma-\mu)^2 = k^2\sigma^2

よって

    (X-\mu)^2 = k^2\sigma^2

になります.これを

    \sigma^2 \geq 
    \int_{-\infty}^{\mu-k\sigma}(X-\mu)^2 f(x)dx
    + \int_{\mu+k\sigma}^{\infty}(X-\mu)^2 f(x)dx

に代入すると,$k^2\sigma^2$が積分の外に出せるので

    \sigma^2 \geq 
    k^2\sigma^2\int_{-\infty}^{\mu-k\sigma} f(x)dx
    + k^2\sigma^2\int_{\mu+k\sigma}^{\infty} f(x)dx

となります.この右辺の第1項と第2項の積分はそれぞれ

\begin{align*}
    P(X<\mu-k\sigma) &= \int_{-\infty}^{\mu-k\sigma} f(x)dx \\
    P(X>\mu+k\sigma) &= \int_{\mu-k\sigma}^{\infty} f(x)dx
\end{align*}

と表せるので,絶対値記号を使ってまとめると

    \sigma^2 \geq k^2\sigma^2 P(|X-\mu| \geq k\sigma)

そして,この両辺を$k^2\sigma^2$で割ると

    \frac{1}{k^2}\geq P(|X-\mu|\geq k\sigma) \quad (k>0)

となります.これをチェビシェフの不等式といいます.
この不等式は,ある確率変数$X$が平均値$\mu$から標準偏差$\sigma$の$k$倍以上離れている確率は全体の$\frac{1}{k^2}$より小さいということを表しています.これを図8を見てみると,確率は色が付いた部分の面積に相当します.例えば,$2k$以上なら$1/4$以下,$3k$以上なら$1/9$以下になります.これは,確率分布がどのようなものでも成り立ちます.

2018-11-25_18h15_24.png

それでは,チェビシェフの不等式を使って,最初の問題を考えてみます.期末テストの数学の結果から平均と分散がわかったとして,平均点の$\pm 10$に入る確率はどのくらいになるかでした.ここで,平均は$60$,分散は$484$,標準偏差は$22$とすると,平均点の$\pm 10$は$50,70$になるので,それを満たす$k$は$11/5$となります.よって

    P(|X-\mu|\leq \frac{11}{5}\sigma) \leq \frac{11}{5}^2 = 0.44

となって,50点から70点になる確率は44\%以下であるということがわかります.この平均と分散のヒストグラムは次のようになっていました.

2018-11-25_18h15_31.png

50点から70点までの範囲を見てみると44\%以下になっていることがわかります.このように,分布がわからなくても,平均と分散がわかっていれば,ある確率変数がどれくらいなのかがある程度当たりをつけることができます.

2項分布

ある試行が別の試行に影響を及ぼさないことを独立試行,またはベルヌーイ試行といいました.独立試行のところで説明しましたが,もう一度簡単に見ていきます.ここで,サイコロを振ったときに1の目が出る確率は$1/6$で,それ以外は$5/6$となります.サイコロを2回振ったときに1の目が出る確率は独立試行なので,

    \frac{1}{6}\times \frac{1}{6} = \frac{1}{36}

となります.それでは,5回振ったときに1の目が出る回数を確率変数$X$としたとき,1の目が出る回数が2回,つまり$X(2)$の確率を考えてみます.まず,5回サイコロを振ったときに1の目が出る組合せは,5個の異なるものから2個を取り出すことなので

    {}_{5}C_{2} = \frac{5\cdot 4}{2} = 10

となり,10通りです.次に,1の目が出る回数が2回,それ以外が3回なので,この確率は

    \left(\frac{1}{6}\right)^2 \left(\frac{5}{6}\right)^3

となります.よって,$X(2)$となる確率は

    P(X=2) = 10\times\left(\frac{1}{6}\right)^2 \left(\frac{5}{6}\right)^3
    = 10\times\frac{1}{36}\frac{125}{216} = \frac{625}{3888}

となります.一般に,ある事象$A$の起こる確率$P(A)=p$が与えられているとき,$n$回独立試行を行って,$A$が$x$回起こる確率は

    f(x) = {}_nC_r p^n(1-p)^{n-x}

となります.このような確率分布を2項分布またはベルヌーイ分布といいます.2項分布は$n$回の独立試行回数と,事象$A$の起こる確率を$p$としたとき,$Bin(n,p)$と表します.サイコロの例だと5回振って1の目が出る確率が$1/6$なので,2項分布$Bin(5,1/6)$に従います.2項分布で$n$を固定したものと$p$を固定したものを図9に示しました.

2018-11-25_18h15_39.png

ここで,2項分布と2項定理の関係を見てみましょう.まず,2項分布は

    f(x) = {}_nC_x p^n(1-p)^{n-x}

でした.$q=1-p$とおくと

    f(x) = {}_nC_x p^n q^{n-x}

と変形できます.2項定理は

    (a+b)^n = \sum_{x=0}^{n} {}_nC_x a^{n-x} b^{x}

です.ここで

    \sum_{x=0}^{n} f(x) = f(0) + f(1) + \cdots + f(n)

という式を考えると,この右辺は

    {}_nC_0 p^0 q^{n-0} + {}_nC_1 p^1 q^{n-1} + \cdots + {}_nC_n p^n q^{n-n}

となって,2項定理の式と一致するので

    \sum_{x=0}^{n} f(x) = (p+q)^n

という関係がわかります.$p+q=1$なので

    \sum_{x=0}^{n} f(x) = 1

となります.これは$f(x)$が確率密度関数の性質を持っているということです.

それでは,2項分布の平均と分散を求めてみます.2項分布の確率変数は離散なので,平均は

    \mu = \sum_{x=0}^{n} xf(x)

$f(x)$を置き換えると

    \mu = \sum_{x=0}^{n} x {}_nC_x p^x q^{n-x}

これを変形すると

    \mu = \sum_{x=0}^{n} x\frac{n!}{x!(n-x)!} p^x q^{n-x}

となります.$x=0$のとき,この項は$0$になるので

    \mu = \sum_{x=1}^{n} x\frac{n!}{x!(n-x)!} p^x q^{n-x}

分母の$x!$を$x(x-1)!$とすると,

    \mu = \sum_{x=1}^{n} x\frac{n!}{x(x-1)!(n-x)!} p^x q^{n-x} = \sum_{x=1}^{n} \frac{n!}{(x-1)!(n-x)!} p^x q^{n-x}

$n!=n(n-1), \quad p^x=p\cdot p^{x-1}, \quad n-x=(n-1)-(x-1)$と変形すると

    \mu = \sum_{x=1}^{n} np \frac{(n-1)!}{(x-1)!\{(n-1)-(x-1)\}!} p^{x-1} q^{(n-1)-(x-1)}

ここで,

    t = x-1 \qquad m = n-1

とおくと

    \mu = \sum_{t=0}^{m} np \frac{m!}{t!(m-t)!} p^{t} q^{t-m} = np \sum_{t=0}^{m} {}_mC_t p^{t} q^{t-m}

$np$の後ろの部分が2項定理のかたちをしているので

    \mu = np(p+q)^m

$p+q=1$だから

    \mu = np

となります.続いて分散は

    \sigma^2 = E[X^2] - \mu^2

なので,

    E[X^2] = \sum_{x=0}^{n} x^2 f(x)
    = \sum_{x=0}^{n} x^2 {}_nC_x p^x q^{n-x}

平均と同じように変形して

    t = x-1 \qquad m = n-1 \qquad \therefore x=t+1

とおくと

\begin{align*}
    E[X^2] &= np \sum_{t=0}^{m} (t+1) \frac{m!}{t!(m-t)!} p^{t} q^{t-m} \\
        &= np \sum_{t=0}^{m} t \frac{m!}{t!(m-t)!} p^{t} q^{t-m} + np \sum_{t=0}^{m} \frac{m!}{t!(m-t)!} p^{t} q^{t-m} \\
        &= np(mp) + np\cdot 1 \\
        &= n(n-1)p^2+np
\end{align*}

よって

    \sigma^2 = E[X^2]-\mu^2 = n(n-1)p^2+np-(np)^2 = np(1-p)
    \therefore \sigma^2 = np(1-p)

2項分布の平均と分散が求まりました.ここで,$X/n=t$という新しい確率変数を考えます.$f(x)$が2項分布$Bin(n,0.2)$に従うとき,$t$の分布の分布は図10のようになります.

2018-11-25_18h15_46.png

この図から$n$を大きくしていくと,$X/n=0.2$のまわりに分布が集中していくことがわかります.$X$の平均は$np$なので,$X/n$の平均は$p$となって,$n$によらずに一定になります.また,$X$の分散は$np(1-p)$なので,$X/n$の分散は$p(1-p)/n$となって,$n$が大きくなると$p$が$0$に収束していき,中心付近に集中します.ここで,チェビシェフの不等式

    \frac{1}{k^2}\geq P(|X-\mu|\geq k\sigma) \quad (k>0)

を利用して,$\mu = np, \quad \sigma = \sqrt{np(1-p)}$とすると,任意の正の数$k$に対して

    P(|X-np|\leq k\sqrt{np(1-p)}) \geq 1-\frac{1}{k^2}

が成り立ちます.確率$P$は$1$を超えないので

    1 \geq P(|X-np|\leq k\sqrt{np(1-p)}) \geq 1-\frac{1}{k^2}

カッコ内の両辺を$n$で割ると

    1 \geq P\left(|t-p|\leq k\sqrt{\frac{p(1-p)}{n}}\right) \geq 1-\frac{1}{k^2}

この式で$k$を大きくしても,$\sqrt{n}$をそれよりも大きくすれば,$k\sqrt{\frac{p(1-p)}{n}}$はいくらでも小さくすることができます.ここで

    \epsilon = k\sqrt{\frac{p(1-p)}{n}}

とおくと,次のように変形できます

    1 \geq P\left(p-\epsilon \leq t \leq p+\epsilon\right) \geq 1-\frac{1}{k^2}

$k$を十分大きくすれば,右辺はほとんど$1$に等しくなり,$n$を$k^2$よりも十分大きくすれば,$\epsilon$は非常に小さくなって,$t$が$p$に近づいていきます.これは,試行回数$n$を増やすほど,その事象の起こる割合は一定の値$p$に近づくということを意味しています.この性質を大数の法則といいます.チェビシェフの不等式はどの確率分布でも成り立ち,大数の法則は統計的確率の

    P(A) = p = \lim_{n\to\infty}\frac{r}{n}

の根拠となっています.

多項分布

サイコロを振ったときに1の目が出る確率と1以外の目が出る確率は2項分布に従います.では,5回サイコロを振った場合に1の目がでる回数を1回,2の目が出る回数を2回,3の目がでる回数を2回というように,3つ以上の結果が起こる確率を求めます.各目が出る確率を$p_1,p_2,p_3,p_4,p_5,p_6$とすると,どの目も$1/6$であり,

    p_1 + p_2 + p_3 + p_4 + p_5 + p_6 = 1

となります.この場合,$(p_1+p_2+p_3+p_4+p_5+p_6)^5$で,$p_1$を1個,$p_2$を2個,$p_3$を2個選ぶ組合せの数で確率が決まるので多項定理

    (a_1 + a_2 + \cdots + a_n)^n = \sum \frac{n!}{n_1! n_2! \ldots n_m!} a_1^{n_1} a_2^{n_2} \ldots a_m^{n_m}
    (n_1 + n_2 + \cdots + n_m = n)

を利用して,$n_1=1, n_2=2, n_3=2, n_4=n_5=n_6 = 0, n=5$とすると

    \frac{5!}{1!2!2!0!0!0!}
    \left(\frac{1}{6}\right)^1
    \left(\frac{1}{6}\right)^2
    \left(\frac{1}{6}\right)^2
    \left(\frac{1}{6}\right)^0
    \left(\frac{1}{6}\right)^0
    \left(\frac{1}{6}\right)^0
    \Doteq 0.0038

となります.一般に,1回の試行で起こりえる結果が$m$通りあり,それぞれの起きる確率を$p_1,p_2,\ldots,p_m$とし

    p = p_1 + p_2 + \cdots + p_m = 1

という関係であるとき,$n$回の独立試行を行い,$i$番目の結果の起こる回数を確率変数$X_i$としたとき

    X_1 = n_1, X_2 = n_2, \ldots, X_m = n_m

となる確率は,確率密度関数

    f(n_1,n_2,\ldots,n_m) = \frac{n!}{n_1!n_2!\cdots n_m!} p_1^{n_1} p_2^{n_2}\cdots p_m^{n_m}

に従います.この確率分布を多項分布といいます.また,確率変数$X_i$はそれぞれ2項分布なので,

    \mu_i = np_i, \quad \sigma_i^2 = np_i(1-p_i)

となります.

ポアソン分布

あるゲームにおいて,宝箱から貴重品を手に入れる確率が$1/100$だとします.貴重品が手に入る数を確率変数とすると,これは2項分布に従いますから,手に入る貴重品の数は

    p(X=x) = f(x) = {}_nC_x p^x (1-p)^{n-x}

となります.よって,貴重品が手に入らない確率は

    f(0) = {}_{100} C_0 \left(\frac{1}{100}\right)^0 \left(1-\frac{1}{100}\right)^{100}
    = \left(\frac{99}{100}\right)^{100} \Doteq 0.366

貴重品が1個手に入る確率は

    f(1) = {}_{100} C_1 \left(\frac{1}{100}\right)^1 \left(1-\frac{1}{100}\right)^{99}
    = \left(\frac{99}{100}\right)^{99} \Doteq 0.370

同様に

    f(2) \Doteq 0.185, \quad f(3) \Doteq 0.061, \quad f(4) \Doteq 0.015, \quad f(5) \Doteq 0.003

となって,$x$が$3,4,5,\ldots$と大きくなると,その確率は急速に$0$に近づいていきます.このようにめったに起こらない事象に対して,何回も試行を行うときには,2項分布を近似した分布を考えることができます.2項分布

    f(x) = {}_nC_x p^x (1-p)^{n-x} = \frac{n!}{x!(n-x)!}p^x(1-p)^{n-x}

を展開して

    f(x) = \frac{n!}{x!(n-x)!}p^x(1-p)^{n-x}
    = \frac{n(n-1)(n-2)\cdots(n-x+1)}{x!} p^x(1-p)^{n-x}

$\mu=np$だから$p=\mu/n$を代入して

    f(x) = \frac{n(n-1)(n-2)\cdots(n-x+1)}{x!}
    \left(\frac{\mu}{n}\right)^x
    \left(1-\frac{\mu}{n}\right)^{n-x}

次のように変形して

    f(x) = \frac{\mu^x}{x!}\cdot 1 \cdot 
    \left(1-\frac{1}{n}\right)
    \left(1-\frac{2}{n}\right)
    \cdots
    \left(1-\frac{x-1}{n}\right)
    \left(1-\frac{\mu}{n}\right)^{n-x}

最後の項は2つの式に分けて

    f(x) = \frac{\mu^x}{x!}\cdot 1 \cdot 
    \left(1-\frac{1}{n}\right)
    \left(1-\frac{2}{n}\right)
    \cdots
    \left(1-\frac{x-1}{n}\right)
    \left(1-\frac{\mu}{n}\right)^{-x}
    \left(1-\frac{\mu}{n}\right)^{n}

ここで$n\to\infty$の極限を考えると,

    \left(1-\frac{1}{n}\right)
    \left(1-\frac{2}{n}\right)
    \cdots
    \left(1-\frac{x-1}{n}\right), \quad
    \left(1-\frac{\mu}{n}\right)^{-x}

はすべて$1$になります.最後の項は

    \lim_{n\to\infty}\left(1-\frac{\mu}{n}\right)^n
    = \lim_{n\to\infty}\left\{
        \left(1-\frac{\mu}{n}\right)^{-\frac{n}{\mu}}
        \right\}^{-\mu}

と変形し,$p=\mu/n$だから

    \lim_{n\to\infty}\left(1-\frac{\mu}{n}\right)^n
    = \lim_{n\to\infty}\left\{
        \left(1-p\right)^{-\frac{1}{p}}
        \right\}^{-\mu}

$p=-1/m$とおくと

    \lim_{n\to\infty}\left(1-\frac{\mu}{n}\right)^n
    = \lim_{n\to\infty}\left\{
        \left(1-\frac{1}{m}\right)^{m}
        \right\}^{-\mu}

ここで$e$の公式

    e = \lim_{n\to\infty}\left(1+\frac{1}{n}\right)^n

から

    \lim_{n\to\infty}\left(1-\frac{\mu}{n}\right)^n
    = e^{-\mu}

となって,結局

    f(x) = \frac{\mu^x}{x!}e^{-\mu}

となります.この分布をポアソン分布といい,上記の式はポアソン分布の確率密度関数です.ポアソン分布は平均$\mu=np$の2項分布において,$n\to\infty$の極限をとっているので,試行回数$n$が大きいときに対応し,$p$の極限は$0$になります.平均は$\mu=np$でポアソン分布は$P(\mu)$と表します.ポアソン分布のグラフを図11に示します.

2018-11-25_18h15_56.png

分散は2項分布の分散$\sigma^2=np(1-p)$の極限なので,$p=\mu/n$を代入して

    \sigma^2 = \lim_{n\to\infty}np(1-p)
    = \lim_{n\to\infty}\mu\left(1-\frac{\mu}{n}\right) = \mu

つまり,ポアソン分布の分散$\sigma^2$は平均$\mu$と等しくなります.

超幾何分布

2項分布や多項分布,ポアソン分布では独立試行のため,複数の試行を行っても,その結果が他の試行に影響することはありません.では,試行すると確率が変わる場合はどうなるでしょうか.次のような場合を考えてみます.箱の中に赤い玉が2個,白い玉が3個入っています.このとき,3個の玉を箱から取り出したときに,赤い玉が2個,白い玉が1個になる確率を求めます.条件を満たす組合せは「赤赤白」「赤白赤」「白赤赤」の3通りです.すべての場合の数は${}_5C_3$なので

    P = \frac{3}{{}_5 C_3} = \frac{3}{10}

となります.これは,赤い玉2個から2個を選ぶ場合の数${}2C_2$と,白い玉3個から1個を選ぶ場合の数${}3C_1$の積が起こり得る場合の数なので

    {}_2 C_2 \times {}_3 C_1 = 3

と計算することができます.これを一般に考えると,赤い玉が$m$個,白い玉が$n$個入った箱があるとします.この箱から玉を$n$個取り出したときに,赤い玉が$k$個含まれる確率を求めると,すべての事象の数は$m+n$個から$r$個を選ぶ場合の数なので

    {}_{m+n} C_r

次に,確率を求める事象は,赤い玉$m$個の中から$k$個を,白い玉$n$個から$r-k$個を選ぶ場合の数なので

    {}_m C_k \times {}_n C_{r-k}

となって,赤い玉を取り出す数を確率変数$X=x$とすれば

    f(x) = \frac{{}_m C_x \times {}_n C_{r-x}}{{}_{m+n} C_r}

で与えられます.$k$は$0$から$r$まで変化し

    \sum_{x=0}^{r} f(x) = 1

という性質を持っているので,これは確率密度関数です.この確率分布を超幾何分布といいます.

これまでの場合は,赤い玉と白い玉の2種類でしたが,それ以上の場合を考えることもできます.いま,箱の中に赤い玉が$a$個,白い玉が$b$個,青い玉が$c$個入っているとします.その中から$n$個の玉を取り出したときに,赤い玉が$n_1$個,白い玉が$n_2$個,青い玉が$n_3$個含まれる確率を求めます.まず,

    n = n_1 + n_2 + n_3

を満たす必要があります.そして,すべての場合の数は$a+b+c$個から$n$個を選ぶので

    {}_{a+b+c} C_{n}

となります.つぎに,赤い玉$n_1$個,白い玉$n_2$個,青い玉$n_3$個含まれる場合の数は

    {}_a C_{n_1} \times {}_b C_{n_2} \times {}_c C_{n_3}

となって,求める確率は

    \frac{{}_a C_{n_1} \times {}_b C_{n_2} \times {}_c C_{n_3}}{{}_{a+b+c} C_{n}}

となります.これは玉の種類が増えても同様に計算することができます.

幾何分布

次のような場合を考えます.サイコロを3回振ったときに,1の目が1回でも出てくる確率はどれくらいでしょうか.これは

  1. $A$:1回目に1の目が出る
  2. $B$:1回目は1以外の目で,2回目に1が出る
  3. $C$:1回目と2回目は1以外の目で,3回目に1が出る

それぞれの確率を計算すると

    P(A) = \frac{1}{6}, \quad
    P(B) = \frac{5}{6}\times \frac{1}{6} = \frac{5}{36}, \quad
    P(C) = \left(\frac{5}{6}\right)^2 \times \frac{1}{6} = \frac{25}{216}

求める確率はこれらの和の事象なので

    \frac{1}{6} + \frac{5}{36} + \frac{25}{216} = \frac{36+30+25}{216} = \frac{91}{216} \Doteq 0.42

となります.もし,4回目に初めて1が出る確率を考えると

    \left(\frac{5}{6}\right)^3 \times \frac{1}{6}

となることがわかります.同様に$r$回目に初めて1が出る確率は

    \left(\frac{5}{6}\right)^{r-1} \times \frac{1}{6}

となります.一般に,独立試行を行ったときに事象$A$の起こる確率を$p$とすると,事象$A$が最初に発生するまでの回数$x=1,2,3,...$を確率変数とすれば

    f(x) = p(1-p)^{x-1}

で得られます.これは試行を繰り返せばいずれ事象$A$が起きることになるので,

    \sum_{x=1}^{\infty} f(x) = 1

の性質を持っていますから,確率密度関数です.この確率分布を幾何分布といいます.この確率密度関数は初項が$p$で,公比が$1-p$の等比数列の形をしています.幾何分布は,時間を$1,2,3,\cdots$と離散的に考えるとき,初めて$A$が起きるまで待つ時間の確率分布と考えることができ,待ち時間分布とも呼ばれます.

次に幾何分布の平均と分散を求めてみます.平均は

    \mu = \sum_{x=1}^{\infty} xf(x) = \sum_{x=1}^{\infty} xp(1-p)^{x-1} = p \sum_{x=1}^{\infty} x(1-p)^{x-1}

ここで$1/(1-x)$のマクローリン展開を考えると

    \frac{1}{1-x} = 1 + x + x^2 + \cdots = \sum_{k=0}^{\infty}x^k

この両辺を微分すると

    \frac{1}{(1-x)^2} = \sum_{k=1}^{\infty}kx^{k-1}

$x=1-p, \quad k=x$とおくと

    \frac{1}{(1-(1-p))^2} = \sum_{x=1}^{\infty}x(1-p)^{x-1}

この右辺は幾何分布の平均の式

    \mu = p \sum_{x=1}^{\infty} x(1-p)^{x-1}

の数列の部分と一致するので

    \mu = p\times 
    \frac{1}{(1-(1-p))^2} = \frac{p}{p^2} = \frac{1}{p}

別の計算方法として,無限和を求めるやり方があります.平均の式は

    \mu = \sum_{x=1}^{\infty} xp(1-p)^{x-1}

右辺は,$(1-p)$を掛けたものを引くと,係数$x$が消え,それは確率密度関数と同じなので$1$になります.

    \sum_{x=1}^{\infty} xp(1-p)^{x-1} - (1-p)\sum_{x=1}^{\infty} xp(1-p)^{x-1} = 1

整理すると

\begin{align*}
    (1-(1-p))\sum_{x=1}^{\infty} xp(1-p)^{x-1} &= 1 \\
    \sum_{x=1}^{\infty} xp(1-p)^{x-1} &= \frac{1}{p}
\end{align*}

次に分散を求めます.この分散は

    \sigma^2 = E[X^2]-\mu^2

の式を使います.また

    E[X^2] = E[X(X-1)] + E[X]

という関係を利用するので,$E[X(X-1)]$をまず求めます.そのために,平均を求めたときに出てきた次の式を使います.

    \frac{1}{(1-x)^2} = \sum_{k=1}^{\infty}kx^{k-1}

この両辺をもう一度微分します.

    \frac{2}{(1-x)^3} = \sum_{k=1}^{\infty}k(k-1)x^{k-2}

この両辺に$x$をかけて,$x=1-p, \quad k=x$とおくと

\begin{align*}
    \frac{2x}{(1-x)^3} &= \sum_{k=1}^{\infty}k(k-1)x^ {k-1} \\
    \frac{2(1-p)}{(1-(1-p))^3} &= \sum_{x=1}^{\infty}x(x-1)(1-p)^ {x-1} \\
    \frac{2(1-p)}{p^3} &= \sum_{x=1}^{\infty}x(x-1)(1-p)^ {x-1}
\end{align*}

よって

    E[X(X-1)] = p \sum_{x=1}^{\infty}x(x-1)(1-p)^{x-1} = \frac{2(1-p)}{p^2}

結局,分散は

\begin{align*}
    \sigma^2 &= E[X^2]-\mu^2 \\
     &= E[X(X-1)]+E[X]-\mu^2 \\
     &= \frac{2(1-p)}{p^2} + \frac{1}{p} + \left(\frac{1}{p}\right)^2 \\
     &= \frac{2(1-p)-1+p}{p^2} \\
     &= \frac{1-p}{p^2}
\end{align*}

幾何分布を使った例を見る前に,この累積分布関数を求めます.幾何分布は離散の確率分布なので,累積密度関数は

    F(x) = P(X\leq x) = \sum_{k=1}^{x}f(x) = \sum_{k=1}^{k}p(1-p)^{k-1} = p\sum_{k=1}^{x}(1-p)^{k-1}

等比数列の和$S$は,初項$a$,公比$r$,項数$n$とすると

    S = \frac{a(r^2-1)}{r-1} = \frac{a(1-r^n)}{1-r}

計算すると

    \sum_{k=1}^{x}(1-p)^{k-1} = \frac{1-(1-p)^x}{p}

よって

    F(x) = p\sum_{k=1}^{x}(1-p)^{k-1} = p \frac{1-(1-p)^x}{p} = 1-(1-p)^x

となります.
それでは,累積分布関数を使って最初のサイコロの例の確率を計算してみると

    F(x) = 1-(1-p)^x = 1-\left(1-\frac{1}{6}\right)^3 = 1-\frac{125}{216} = \frac{91}{216} \Doteq 0.42

となって一致します.今度は別の事例を見てみましょう.あるスマホゲームでガチャがあります.このガチャでSSRカードが出る確率はどのようになっているか,ガチャを回した回数との関係を図12に示します.

2018-11-25_18h16_06.png

横軸がガチャを回した回数,縦軸がSSRカードを最初に引く確率,$p$がSSRカードの出る確率です.

ガウス積分

正規分布(ガウス分布)をはじめる前に,ガウス積分について見ていきます.ガウス積分は以下の式

    f(x) = e^{-x^2}

の形をした関数を$-\infty$から$\infty$まで積分した値です.ここで,この積分の値を$I$とすると

    I = \int_{-\infty}^{\infty}e^{-x^2}dx

これとまったく同じ式で$x$を$y$に置き換えたものを考え

    I = \int_{-\infty}^{\infty}e^{-y^2}dy

これらの積を求めると

    I^2 = \int_{-\infty}^{\infty}e^{-x^2}dx \cdot \int_{-\infty}^{\infty}e^{-y^2}dy

まとめると

    I^2 = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty}\exp(-(x^2+y^2))dxdy

重積分の形になります.この積分は図14に示すように

    z = exp(-(x^2+y^2))

という関数に体積になっています.

2018-11-25_18h16_12.png

この重積分を計算するために,直交座標($x,y$)から極座標($r,\theta$)に変数変換します.すると

    x^2 + y^2 = r^2

となって,微分係数は

    dxdy \to rdrd\theta

となります.これは直交座標での微小面積$dxdy$が,極座標での微小面積$(rdrd\theta)$に変換されています.また,積分範囲は

    -\infty \leq x \leq \infty, \quad -\infty \leq y \leq \infty \quad \to \quad 0 \leq r \leq \infty, \quad 0 \leq \theta \leq 2\pi

に変わります.よって

    I^2 = \int_{0}^{2\pi} \int_{0}^{\infty}
        \exp(-r^2)rdrd\theta

となります.まず

    \int_{0}^{\infty}\exp(-r^2)rdr

の積分を求めるには,置換積分を使って$t=r^2, \quad dr=dt/2r$とすると

    \int_{0}^{\infty}\exp(-r^2)rdr = 
    \int_{0}^{\infty}\frac{1}{2}\exp(-t)dt = 
    \left[-\frac{1}{2}\exp(-t)\right]_{0}^{\infty} =
    \frac{1}{2}

よって

    I^2 = \int_{0}^{2\pi}\frac{1}{2}d\theta =
    \left[\frac{\theta}{2}\right]_{0}^{2\pi} = \pi
    \therefore I = \pm \sqrt{\pi}

ただし,$I$の値は正なので

    \int_{-\infty}^{\infty}e^{-x^2}dx = \sqrt{\pi}

となります.

以降はガウス積分の類似した形のものをいくつか見ていきます.まずは

    \int_{-\infty}^{\infty} e^{-ax^2}dx \quad (a>0)

これは$t=\sqrt{a}x, \quad dt=\sqrt{a}dx$とおくと

    \int_{-\infty}^{\infty} e^{-t^2}\frac{1}{\sqrt{a}}dt = \frac{1}{\sqrt{a}} \int_{-\infty}^{\infty} e^{-t^2}dt

右辺の積分はガウス積分なので$\sqrt{\pi}$となるから

    \int_{-\infty}^{\infty} e^{-ax^2}dx
    = \frac{\sqrt{\pi}}{\sqrt{a}} = \sqrt{\frac{\pi}{a}}

となります.次に

    \int_{0}^{\infty} e^{-ax^2}dx \quad (a>0)

これは$e^{-ax^2}$のグラフ(図14)を見てください.

2018-11-25_18h16_17.png

$y$軸に対して$x=0$のところで軸対称になっていることがわかります.このような性質をもつ関数を偶関数といいます.つまり,$e^{-ax^2}$は偶関数です.ここで積分範囲の下限が$-\infty$から$0$に変わったということは,グラフ上で色が付いている面積の半分ということになります.よって

    \int_{0}^{\infty} e^{-ax^2}dx = \frac{1}{2}\sqrt{\frac{\pi}{a}}

となります.次は

    \int_{0}^{\infty}x e^{-ax^2}dx \quad (a>0)

そのまま,積分を計算すると

    \int_{0}^{\infty}x e^{-ax^2}dx =
    \left[-\frac{1}{2a}e^{-ax^2}\right]_{0}^{\infty} =
    -\left(-\frac{1}{2a}\right) = \frac{1}{2a}

となります.最後に

    \int_{-\infty}^{\infty}x^{2n} e^{-ax^2}dx, \qquad
    \int_{0}^{\infty}x^{2n+1} e^{-ax^2}dx \quad (a>0)

それぞれ

\begin{align*}
    \int_{-\infty}^{\infty}x^{2n} e^{-ax^2}dx &=
    \frac{n!}{2a^{n+1}} \\
    \int_{-\infty}^{\infty}x^{2n+1} e^{-ax^2}dx &=
    \frac{(2n-1)!!}{2^n a^n}\sqrt{\frac{\pi}{a}}
\end{align*}

となります.

正規分布

2項分布で$n$を大きくしていくと,分布が特定の形になっていくことが知られています.また,2項分布のところで$t=X/n$の分布は$n$を大きくしていくと,大数の法則によって,$p$のまわりに集中していくことがわかりました.それぞれ図で確認してみると

2018-11-25_18h16_23.png

このように$n$を大きくしていくと,その分布は

    f(x) = e^{-x^2}

または

    f(x) = e^{-ax^2} \quad (a>0)

という分布に近づいていきます.これをガウス関数といいます.この関数のグラフを図16に示します.

2018-11-25_18h16_31.png

ガウス関数の特性を見ていくと,まず,$x=0$を代入すると

    f(0) = e^0 = 1

となります.次に

    f(-x) = e^{-(-x)^2} = e^{-x^2} = f(x)

の性質を持っているので偶関数です.よって,$y$軸に関して左右対称になります.ガウス関数を微分すると

    f'(x) = -2x e^{-x^2}

$x<0$では単調増加,$x>0$では単調減少なので,$x$の絶対値が増えていくと,$f(x)$の値は小さくなっていきます.また,極限

    \lim_{x\to\pm\infty}e^{-x^2} = 0

よって,中心から無限遠で$0$になります.

次に$e^{-ax^2}$の$a$を変化させたときのグラフを図17に示します.

2018-11-25_18h16_37.png

$a$の値を大きくしていくと,より中心に集中していくことがわかります.また,$a$の値を小さくすれば,分布が拡がっていくこともわかります.つまり,$a$は分布の大きさを表しています.

ここで,ガウス関数を確率密度関数に変換します.まず,

    \int_{-\infty}^{\infty} e^{-ax^2} dx = 1

を満たす必要があります.ガウス積分から

    \int_{-\infty}^{\infty} e^{-ax^2} dx = \sqrt{\frac{\pi}{a}}

となるので

    f(x) = \frac{\sqrt{a}}{\sqrt{\pi}}e^{-ax^2}

と正規化します.また,この$a$は分布の大きさですが,分布のばらつきを表すものに分散があります.そこで

    2\sigma^2 = \frac{1}{a} \quad \therefore a=\frac{1}{2\sigma^2}

と置き換えます.すると

    f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{x^2}{2\sigma^2}} = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{x^2}{2\sigma^2}}

となります.この関数は$x=0$を中心とした分布ですが,図15でわかるように中心は移動します.そこで中心がどの位置になるかというと平均$\mu$になります.この対応をすると

    f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

この確率密度関数の分布をガウス分布または正規分布といいます.この分布は平均$\mu$と分散$\sigma^2$によって形が決まるので,正規分布を$N(\mu,\sigma^2)$と表します.

平均$\mu=0$としたとき,分散$\sigma^2$の値によって正規分布のグラフがどう変化するかを図18に示します.

2018-11-25_18h16_43.png

正規分布に従った確率変数$X$があるとき,ある範囲$(a\leq X \leq b)$の確率は

    P(a\leq X \leq b) = \int_{a}^{b} \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx

で求めることができます.この計算をするために,この式を変形していきます.まず,変数変換 $t = x-\mu, \quad dt = dx$をすると

    \int_{a-\mu}^{b-\mu} \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{t^2}{2\sigma^2}}dt

として,中心の位置を$0$にします.さらに,次の変数変換をすると

    z = \frac{t}{\sigma} \qquad dz = \frac{dt}{\sigma}

積分範囲を

    \alpha = \frac{a-\mu}{\sigma}, \qquad \beta = \frac{b-\mu}{\sigma}

とおくと

    \int_{\alpha}^{\beta} \frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}

これは$\sigma=1$にしています.この2回の変換をまとめると

    z = \frac{x-\mu}{\sigma}

とすることができます.この変数に対応した確率密度関数は

    f(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}

となります.これは平均$\mu=0$,分散$\sigma^2=1$に相当します.つまり,この分布は$N(0,1)$であり,このような正規分布を標準正規分布といいます.また,この変換のことを標準化変換,$z$を標準化変数と呼ぶこともあります.

すべての正規分布は

    z = \frac{x-\mu}{\sigma}

という変数変換をすると標準正規分布となり,

    x = \sigma z + \mu

という逆変数変換をすると,元の正規分布に戻すことができます.積分を計算するときは,標準正規分布に変換して,標準正規分布表を使う方法や,指数関数のべき級数展開

    \int_{0}^{a} e^{-ax^2}dx = a-\frac{1}{3\cdot 1}a^3
    +\frac{1}{5\cdot 2!}a^5
    -\frac{1}{7\cdot 3!}a^7
    +\frac{1}{9\cdot 4!}a^9 - \cdots

を利用する方法があります.また,正確な値が必要でなければ累積分布関数の近似式を使うこともできます.

    F(x) = \frac{1}{1+\exp(-0.07056x^3-1.5976x)}

この関数の誤差は$0.0014$以下で

    F(x) = \frac{1}{1+\exp(-1.7x)}

こちらは誤差が$0.01$以下になります.$a\leq x \leq b$の範囲を求める場合は$F(b)-F(a)$で求められます.1つ目の近似式は一般の正規分布でも同じ誤差になります.

    F(x) = \frac{1}{1+\exp\left(-0.07056\left(\frac{x-\mu}{\sigma}\right)^3-1.5976\left(\frac{x-\mu}{\sigma}\right)\right)}

正規分布$N(\mu,\sigma^2)$の性質として,一般に確率変数は平均$\mu$から$\pm\sigma$の間に$68\%$,$\pm2\sigma$の間に$95\%$,$\pm3\sigma$の間に$99.7\%$以上存在します.

2018-11-25_18h16_50.png

例えば,$\mu\pm 3\sigma$以外のところ($0.03\%$)は誤差として扱うというように,区切りとして$\mu\pm\sigma, \quad \mu\pm 2\sigma, \quad \mu\pm 3\sigma$がよく使われます.

ここで,はじめに言ったことを振り返って考えてみると,2項分布の$n$を大きくして標準化すれば標準正規分布$N(0,1)$に近づいていくということでした.実は,2項分布だけでなく,平均が$\mu$,分散が$\sigma^2$である他の分布に従っている確率変数$X_1,X_2,\ldots,X_n$の平均を$\overline{X}$として

    Z_n = \frac{\sqrt{n}}{\sigma}(\overline{X}-\mu)

とすると,$n$を大きくしたとき,$Z_n$の分布は標準正規分布に近づいていくことがわかっています(ただし,すべての分布で成立するとは限りません).これを中心極限定理といいます.

モーメント

ここでは詳しい説明をせずに軽く見ていくことにします.

$f(x)$を確率密度関数として,$\phi(X)$を確率変数$X$の関数とします.$\phi(X)$の期待値$E[\phi(X)]$は

    E[\phi(X)] = \int_{-\infty}^{\infty} \phi(x) f(x) dx

で与えられます.離散でも同じように考えることができます.
このとき,

    E[X] = \int_{-\infty}^{\infty}xf(x)dx,
    \qquad 
    E[X^2] = \int_{-\infty}^{\infty}x^2f(x)dx,
    \qquad
    E[X^3] = \int_{-\infty}^{\infty}x^3f(x)dx

となり,$\phi(X) = X^k (k=0,1,2,\ldots)$とすると,一般式は

    E[X^k] = \int_{-\infty}^{\infty}x^kf(x)dx

で与えられます.これを$k$次のモーメントといいます.よって,1次のモーメント

    E[X] = \int_{-\infty}^{\infty}xf(x)dx = \mu

は平均であり,

    E[(X-\mu)^2] = \int_{-\infty}^{\infty}(X-\mu)^2f(x)dx = \sigma^2

は平均のまわりの2次モーメントといいます.また$\mu=0$とすれば,分散になります.そして

    E[(X-\mu)^3] = \int_{-\infty}^{\infty}(X-\mu)^3f(x)dx = \gamma

は平均のまわりの3次モーメントで,歪度といい,分布のゆがみの大きさです.さらに4次モーメントは尖度といい,中心の周囲の部分の尖り具合を表します.

ここで,

    \phi(X) = e^{tx}

としたとき,

    M(X) = E\left[e^{tx}\right]

モーメント母関数といいます.指数関数の級数展開

    e^x = 1+x+\frac{1}{2!}x^2 + \frac{1}{3!}x^3 + \cdots + \frac{1}{n!}x^n+\cdots

から,$e^{tx}$を考えると

    e^{tx} = 1+tx+\frac{1}{2!}t^2x^2 + \frac{1}{3!}t^3x^3 + \cdots + \frac{1}{n!}t^nx^n+\cdots

と展開できます.この関数の期待値は

    E\left[e^{tx}\right] = 1 + E[x]t+\frac{1}{2!}E[x^2]t^2 + \frac{1}{3!}E[x^3]t^3 + \cdots + \frac{1}{n!}E[x^n]t^n+\cdots

となります.これを$t$で微分すると

    \left(E\left[e^{tx}\right]\right)' = E[x]+\frac{1}{2!}E[x^2]t + \frac{1}{3!}E[x^3]t^2 + \cdots + \frac{1}{(n-1)!}E[x^n]t^{n-1}+\cdots

これに$t=0$を代入すると$E[x]$が求まります.同様に,$t$でまた微分して$t=0$を代入すると$E[x^2]$が得られます.つまり,モーメント母関数を微分すれば,$k$次のモーメントを求めることができるので,モーメント母関数という名前になっています.一般に$k$次モーメントは

    E[x^k] = M^{(k)}(0)

で与えられます.

最後に

いかがだったでしょうか.なるべくわかりやすく書いたつもりですが,わかりづらかったところがあったかもしれません.また,知識不足で間違っていたり,説明足らずなところもあったかもしれません.気づいたところがあれば気軽にご連絡してもらえると助かります.内容についてはまだまだ足りておらず,取り上げなかった分布も多く,相関やランダムウォーク,マルコフ過程とかに全然到達できませんでした.また,CGということでレンダリングで使われている確率分布(Phong分布,Beckmann分布,GGX分布,GTR分布,AGC分布,SGD分布など)にも触れられませんでした.まあ,これらは次の機会ということで.
少しでも誰かの参考になれば幸いです.

参考文献

  • 村上雅人「なるほど確率論」海鳴社,2003
  • 村上哲哉「確率」ファーラム・A,1989
  • 薩摩順吉「確率・統計」岩波書店,1989
  • 東京大学教養部統計学教室「統計学入門」東京大学出版会,1991
  • 竹内淳「高校数学でわかる統計学」講談社,2012
Why do not you register as a user and use Qiita more conveniently?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away