2.1 事象と確率
用語
-
根本事象(標本点):試行によって起こり得る個々の結果
-
事象: 根本事象の集合
-
標本空間(全事象)$Ω$: すべての根本事象の集合
-
確率の公理(コルモゴロフの公理):確率とは次の$1)~3)$を満たす関数である。
1)任意の事象$A$に対して、$0≦P(A)≦1$
2)全事象$A$に対して、$P(Ω)=1$
3)$A_1, A_2,…$が互いに背反事象であれば、$P(A_1∪A_2∪…)=P(A_1)+P(A_2)+…$
確率の定義
1)古典的な定義(ラプラスの定義):根本事象はどれも同様に起こりやすいと仮定して、確率を根本事象の数から算出する
2)頻度に基づく定義: 試行Nが十分大きいとき、大数の法則から事象$i$の結果$N_i$とすると$N_i/N$は一定の値$p_i$に近づく。この性質に基づいて$P({i})=p_i$と定義する方法。
3)ベイズ統計学の主観に基づく定義: 主観確率は反復できない1回きりの不確定な事象への応用を想定した定義
2.2 条件付き確率
下図において$A$が起こるという条件の下で$B$が起きる条件付き確率$P(B|A)$は以下の通り。$A$が起きるという事象は円Aの中を表し、その中で$B$の起きる確率は$P(A∩B)$であるから。
P(B|A) = \frac{P(A∩B)}{P(A)}
この式に$P(A)$を両辺にかけると、確率の乗法定理が得られる。
P(A∩B) = P(A)P(B|A)
独立性
事象$A$と$B$が独立であるとは、一方の事象が起こるかどうかが他方の事象の起こる確率に影響しないこと(下式)。条件付き確率を計算しても独立であるからそのまま計算する。
P(B|A)=P(B)且つP(A|B)=P(A)
P(A∩B) = P(A)P(B)
2.3 ベイズの定理
ある事象Aに対して、その事象の原因として排反なn個の事象$H_1,H_2,…H_n$があり、それ以外に原因はないとする。$H_i$の条件付き確率は乗法定理による変形によって
P(H_i|A) = \frac{P(H_i∩A)}{P(A)}
⇔P(H_i|A) = \frac{P(H_i)P(A|H_i)}{P(A)}
となる。$P(A)$が直接わからなくとも、$AはH_i$によってのみ引き起こされるため
P(A) = P(A∩H_1)+P(A∩H_2)+…+P(A∩H_n)
=P(H_1)P(A|H_1)+P(H_2)P(A|H_2)+…+P(H_n)P(A|H_n)
よって、
P(H_i|A)=\frac{P(H_i)P(A|H_i)}{P(A)}
=\frac{P(H_i)P(A|H_i)}{P(H_1)P(A|H_1)+P(H_2)P(A|H_2)+…+P(H_n)P(A|H_n)}
=\frac{P(H_i)P(A|H_i)}{\sum_{j=1}^nP(H_j)P(A|H_j)}
この式をベイズの定理という。$P(H_i)$は事前確率、$P(H_i|A)$は事後確率と呼ぶ。
- ベイズの定理の良い例として、メールに$free$が含まれているときに$spam$である確率があり、次のように記述できる
P(spam∣free)=\frac{P(free∣spam)⋅P(spam)}{P(free)}
元々分かっている事前確率であるスパムメールの確率$P(spam)$を、スパムメールに$free$という文字化は言っている確率$P(free∣spam)$を、メールに$free$という文字が入っている確率で除すると、$free$という文字が入っているメールがスパムである確率(事後確率)を計算できる。
2.4 確率変数と確率分布
確率変数と確率分布
-
確率変数 (Random Variable)
不確実な現象の結果を数値として表す変数。
例:サイコロを振ったときの出目、身長の数値 -
確率分布 (Probability Distribution)
確率変数の値ごとの確率を表すもの。
離散型確率分布
確率変数が「離散的な値」を取る場合。
- 例:サイコロの出目
- 定義: コルモゴロフの公理より次を満たす
P(X = x_i)=f(x_i), \qquad \sum_i f(x_i) = 1, \qquad 0≦f(x_i)≦1
具体例(サイコロ):
P(X = k) = \frac{1}{6}, \quad k = 1,2,3,4,5,6
連続型確率分布
確率変数が「連続的な値」を取る場合。
- 確率を直接は定義できないので、確率密度関数 (PDF) を用いる。
- 定義:
P(a \leq X \leq b) = \int_a^b f(x) \, dx
コルモゴロフの公理より次を満たす
\int_{-\infty}^{\infty} f(x) \, dx = 1
累積分布関数
累積分布関数の導関数は確率密度関数に等しい。
F(x)=P(X≦x)=\int_{-\infty}^{x} f(u) \, du

図 離散型確率関数と累積分布関数

図 連続型確率密度関数と累積分布関数
2.5 期待値と分散
確率分布の期待値
期待値は離散型の場合、連続型の場合で各々以下のように定義される
E[X]≡\sum_ix_if(x_i)=μ
E[X]≡\int_{-\infty}^{\infty} xf(x) \, dx = μ
- 期待値と平均の関係
総試行$N$、$x_i$が$N_i$が出たとして、確率$p_i$とすると、データ平均と期待値は
$平均 \ \bar{x}=\sum_ix_i\frac{N_i}{N}$
$期待値 \ μ=\sum_ix_ip_i$
大数の法則により、相対度数($N_i/N$)は$N$が大きくなるとき$p_i$に近づくので、平均$\bar{x}$は期待値$μ$に近づく。したがって、期待値は観測データの平均、母平均に対応する概念となる。
確率分布の分散
確率変数$X$の分散は母平均$μ$からの偏差の2乗の期待値として定義する。この平方根は標準偏差と定義する。
V[X]≡E[(X-μ)^2]=\sum_i(x_i-μ)^2f(x_i)=σ^2=E[X^2]-μ^2
V[X]≡E[(X-μ)^2]=\int_{-\infty}^{\infty} (x-μ)^2f(x) \, dx = σ^2=E[X^2]-μ^2
- 分散が$E[X^2]-μ^2$となる証明は次の通り
V[X]≡E[(X-μ)^2]=\sum_i(x_i^2-2μx_i+μ^2)f(x_i)
=\sum_ix_i^2f(x_i)-2μ\sum_ix_if(x_i)+μ^2\sum_if(x_i)
=E[X^2]-2μE[X]+μ^2×1
$E[X]=μ$なので
=E[X^2]-2μ^2+μ^2
=E[X^2]-μ^2
- 確率変数$X$に対して、一次式$aX+b$について期待値と分散は次の通り
E[aX+b]=\sum_i(ax_i+b)f(x_i)=aE[X]+b
V[aX+b]=E[(aX+b-E[X])^2]=E[(aX+b-aE[X]-b)^2]=E[a^2(X-E[X])^2]
=a^2\sum_i(x_i-μ)^2f(x_i)=a^2V[X]
2.6 モーメント
- $k$次モーメント
μ'_k ≡ E[X^k]
- $k$次中心モーメント
μ_k ≡ E[(X-μ)^k]
2次中心モーメントは分散$V(X)$、3次中心モーメントは歪度(右に裾は正)、4次中心モーメントは尖度を示す
2.7 主な離散型確率分布
ベルヌーイ分布
起こり得る$2$種類の結果の確率は一定で、互いに独立な試行はベルヌーイ試行という。$2$種類の結果を$1$と$0$で表し、$1$である確率を$p$とする。$1$回のベルヌーイ試行による得られる分布はベルヌーイ分布と呼ぶ
P(X = x) = p^x (1-p)^{1-x}, \quad x \in \{0,1\}
μ=E[X]=1×p+0×(1-p)=\boxed{p}
σ^2=E[X^2]-μ^2=1^2×p+0^2×(1-p)-p^2=p-p^2=\boxed{p(1-p)}
二項分布
成功確率$p$の$n$回のベルヌーイ試行を行ったとき、成功回数$x$、失敗回数$n-x$である確率は以下の式で表すことができ、二項分布と呼ぶ。二項分布は独立な$n$個のベルヌーイ変数$B(1,p)$と考えることができるため、以下の通り期待値と分散は$n$倍となる。
P(X=x)≡B(n, p)={}_n\mathrm{C}_xp^x(1-p)^{n-x}
μ=E[X]=\sum_{x=1}^nE[B(1,p)]=np
σ^2=E[(X-μ)^2]=\sum_{x=1}^np(1-p)=np(1-p)
先頭のコンビネーションはいつ成功するかのパターンを考慮するために存在する。コイントス$10$回投げた時に、$1$回だけ表(成功)が出るパターンは$1$回目から$10$回目各々あるため、そのような根本事象を拾い上げるため${}_{10}\mathrm{C}_1$という係数が必要になる。
ポアソン分布
二項分布$B(n,p)$において期待値$np=λ$を固定し、試行回数と成功確率について$n→∞, p→0$のような極限を取ったときに得られる確率分布をポアソン分布という。まれな事象の回数を表す。
ポアソン分布の確率質量関数、期待値、分散は次の通り。
f(x)=\frac{\lambda^x}{x!} e^{-\lambda}
E[X]=V[X]=λ
ポアソン分布の確率質量関数の導出
観測時間(または空間)を $n$ 個の独立な小区間に分割し、各区間で事象が起きる非常に小さい確率を
p_n=\frac{\lambda}{n}
とする。このとき、発生回数$X_n$の二項分布は次の通り。
B(n, λ/n)=\binom{n}{x}\left(\frac{\lambda}{n}\right)^x \left(1-\frac{\lambda}{n}\right)^{n-x}
- $\binom{n}{x}\left(\frac{\lambda}{n}\right)^x$の極限
\binom{n}{x}\left(\frac{\lambda}{n}\right)^x
= \frac{n(n-1)\cdots(n-x+1)}{x!}\cdot \frac{\lambda^x}{n^x}
=\frac{n(n-1)\cdots(n-x+1)}{x!}\frac{\lambda^x}{n^x}=\frac{\prod_{j=0}^{x-1}(n-j)}{x!}\frac{\lambda^x}{n^x}
=\frac{\lambda^x}{x!}\displaystyle \frac{\prod_{j=0}^{x-1}(n-j)}{n^x}=\frac{\lambda^x}{x!}\prod_{j=0}^{x-1}\frac{n-j}{n}=\frac{\lambda^x}{x!}\prod_{j=0}^{x-1}\left(1-\frac{j}{n}\right)
ここで $n\to\infty$とすると、$1-\frac{j}{n}\to 1$
\prod_{j=0}^{x-1}\left(1-\frac{j}{n}\right)\longrightarrow 1
従って、
\binom{n}{x}\left(\frac{\lambda}{n}\right)^x \xrightarrow[n\to\infty]{}\; \boxed{\frac{\lambda^x}{x!}}
- $\left(1-\frac{\lambda}{n}\right)^{n-x}$の極限
\left(1-\frac{\lambda}{n}\right)^{n-x}
=\left(1-\frac{\lambda}{n}\right)^n \cdot \left(1-\frac{\lambda}{n}\right)^{-x}
ここで$n\to\infty$のとき、ネイピア数の定義より
\displaystyle \left(1-\frac{\lambda}{n}\right)^n \to e^{-\lambda}
また、$n\to\infty$のとき、
\displaystyle \left(1-\frac{\lambda}{n}\right)^{-x}\to 1
ゆえに
\left(1-\frac{\lambda}{n}\right)^{n-x} \xrightarrow[n\to\infty]{} \boxed{e^{-\lambda}}
- 2つの極限結果を掛け合わせるとポアソン分布の確率質量関数が導出される。
\lim_{n\to\infty}B(n, \frac{λ}{n})
=\frac{\lambda^k}{x!}・e^{-\lambda}
= \boxed{\frac{\lambda^x}{x!}e^{-\lambda}}
分散
E[(X^2)]=\sum_{k=0}^{\infty}k^2\frac{λ^k}{k!}e^{-λ}=e^{-λ}\sum_{k=0}^{\infty}(k(k-1)+k)\frac{λ^k}{k!}
=e^{-λ}(λ^2\sum_{k=2}^{\infty}\frac{λ^{k-2}}{(k-2)!}+λ\sum_{k=1}^{\infty}\frac{λ^{k-1}}{(k-1)!})
=e^{-λ}(λ^2e^λ+λe^λ)=λ^2+λ
となるので分散は
\mathrm{Var}(X)=E[(X^2)]-(E[X])^2=λ^2+λ-λ^2= \boxed{\lambda}.
- なお、$e^λ$のマクローリン展開より以下の式を活用した。
\sum_{k=0}^{\infty}\frac{λ^k}{k!}=e^λ
幾何分布
成功確率$p$のベルヌーイ試行を、初めて成功するまで繰り返した時の試行回数$X$の確率分布を幾何分布という。初めて成功するのが$x$回目であるとすると、それまでの$x-1$回は失敗であるから、その確率は下式となる。
P(X=x)≡f(x)=p(1-p)^{x-1} \qquad (x=1,2,3,…)
E[X]=\frac{1}{p},\qquad V[X]=\frac{1-p}{p^2}
2.8 主な連続型確率分布
区間$[a,b]$のどの値も同じ起こりやすさを持つ確率密度関数は以下の通り。
一様分布
f(x)=\frac{1}{b-a} \qquad (a≦x≦b)
f(x)=0 \qquad (x<a, x>b)
期待値と分散は次の通り。
E[X]=\frac{a+b}{2}
V[X]=E[X^2]-μ^2= \frac{a^2+ab+b^2}{3}-\frac{(a+b)^2}{4}=\frac{4a^2+4b^2+4ab-3b^2-3a^2-6ab}{12}
=\frac{a^2+b^2-2ab}{12}=\frac{(b-a)^2}{12}
正規分布
平均$μ$と分散$σ^2$をパラメーターとする正規分布の確率密度関数は次の通り。
N(μ,σ^2) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)
正規分布の性質
- 確率変数$X$が正規分布$N(μ, σ^2)$に従う時、$aX+b$も正規分布に従い、その平均は$E(aX+b)=aμ+b$、分散は$V(aX+b)=a^2σ^2$に従う。これは$n$個の確率変数$a_1X+a_2Y+…+b$になっても成り立ち、$N(a_1μ+a_2μ_2+…+b,\quad a^2_1σ^2_1+a^2_2σ^2_2+…)$となる
- 平均$0、分散1の正規分布N(0,1)$を標準正規分布と呼び、この形にすることを標準化と呼ぶ
N(0,1)=φ(z)=\frac{1}{\sqrt{2π}} \exp\left(-\frac{z^2}{2}\right)
Φ(z)=\int_{-\infty}^{z} \frac{1}{\sqrt{2π}} \exp\left(-\frac{u^2}{2}\right)du
-
正規分布の再生性: 確率変数$X,Y$が独立に$N(μ_1,σ^2_1), N(μ_2, σ^2_2)$に従う時、確率変数$X+Y$は$N(μ_1+μ_2,\quad σ^2_1+σ^2_2)$に従う。これは$n$個の確率変数になっても成り立つ
-
正規分布の再生性$2$: 確率変数$X,Y$が独立に$N(μ_1,σ^2_1),\quad N(μ_2, σ^2_2)$に従う時、確率変数$(X+Y)/2$は$N((μ_1+μ_2)/2,\quad(σ^2_1+σ^2_2)/2^2)$に従う。
期待値の導出
正規分布の確率密度関数は
$$
f(x) = \frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\quad x \in \mathbb{R}
$$
期待値は
$$
E[X] = \int_{-\infty}^{\infty} x\ f(x)\ dx.
$$
置換 $y = \frac{x-\mu}{\sigma}$ を導入すると、
$$
x = \mu + \sigma y, \quad dx = {\sigma}dy
$$
このとき積分は
$$
\begin{aligned}
E[X] &= \int_{-\infty}^{\infty} (\mu+\sigma y)
\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{y^2}{2}\right)σdy= \int_{-\infty}^{\infty} (\mu+\sigma y)\frac{1}{\sqrt{2\pi}}e^{-y^2/2}dy
\end{aligned}
$$
項を分けると、
E[X] = \mu \underbrace{\int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}}e^{-y^2/2}\,dy}_{=1}
+ \sigma \underbrace{\int_{-\infty}^{\infty} y \cdot \frac{1}{\sqrt{2\pi}}e^{-y^2/2}\,dy}_{=0}.
- 最初の積分は 標準正規分布の全確率なので 1。
- 後ろの積分は 奇関数の積分で 0。 (標準正規分布の期待値の導出と同じ)
したがって、
$$
E[X] = \mu
$$
となる。
指数分布
指数分布は連続型確率分布の一つで、交通事故が起きてから次に事故するまでの期間の期間のように、次に何かが起こるまでの期間が従う分布である。次に起こるまでの期間$X$として、$X≦t$である確率、すなわち$X$の累積分布関数はポアソン分布で一定時間に発生しない確率を利用して下式のように表示できる。無記憶性を持つ。
F(x)=1-P(X>x)=1-\frac{(\lambda t)^0}{0!} e^{-\lambda t}=1-e^{-\lambda t}
確率密度関数は累積分布関数を微分して導出できるため下式のように表示できる。指数分布と呼ばれる。
f(t)=\lambda e^{-\lambda t} \qquad (0≦t<∞)
期待値と分散は次の通り。
E(X)=\frac{1}{\lambda}\qquad V[X]=\frac{1}{\lambda^2}
