確率分布
確率変数がとる値とそれぞれの確率の対応を表したものを確率分布と言います。
さまざまな確率分布には以下のような関係性があります。
画像引用:https://twitter.com/tomoybs/status/1291310306929422338/photo/1
離散一様分布
確率変数Xが離散型確率変数である時、全ての事象の起こる確率が等しいその分布を離散一様分布と言います。
サイコロを1回振った時の確率などが離散一様分布に該当します。
離散一様分布に従う確率変数Xが(1,2,…,N)をとる時、確率質量関数は以下のように表されます。
f(x)=\frac{1}{N}
このとき、期待値と分散は以下のように表されます。
E[X]=\frac{N+1}{2}
V[X]=\frac{N^2-1}{12}
また一般に離散一様分布に従う確率変数Xが**(a,a+1,…,b)**をとる時、確率質量関数は以下のように表されます。
f(x)=\frac{1}{b-a+1}
このとき、期待値と分散は以下のように表されます。
E[X]=\frac{a+b}{2}
V[X]=\frac{(b-a+1)^2-1}{12}
連続一様分布
連続型確率変数Xがどのような値でも、その時の確率密度関数f(x)が常に一定の値をとる分布を連続一様分布と言います。
確率変数Xが閉区間[a,b]における連続一様分布に従う時、確率密度関数は以下のように表されます。
f(x)=\frac{1}{b-a}
このとき、期待値と分散は以下のように表されます。
E[X]=\frac{a+b}{2}
V[X]=\frac{(b-a)^2}{12}
ベルヌーイ分布
コインを投げた時に「表が出る」「裏が出る」のように取り得る結果が2通り(「成功」と「失敗」)しかない試行をベルヌーイ試行と言い、この時とる分布をベルヌーイ分布と言います。
1回のベルヌーイ試行での成功の確率をp(確率変数Xを1)、失敗する確率をq(確率変数を0)とした場合、P(X=1)=p・P(X=0)=q=1-qと表され、確率質量関数の形で以下のように一括することができます。
f(x)=p^x(1-p)^{1-x} (x=0,1)
このとき、期待値と分散は以下のように表されます。
E[X]=p
V[X]=p(1-p)
二項分布
成功確率がpであるベルヌーイ試行を独立にn回行い、成功回数を確率変数Xとする分布を二項分布と言います。二項分布におけるn=1の場合がベルヌーイ分布となります。
確率変数Xが二項分布に従う時、nとpの2つの値(**分布を特徴づける値「パラメーター」**である)によって決まるため B(n,p) と表記されます。二項分布の確率質量関数は以下のように表されます。
f(x)=_nC_xp^x(1-p)^{n-x} (x=0,1,2,…,n)
このとき、期待値と分散は以下のように表されます。
E[X]=np
V[X]=np(1-p)
ポアソン分布
二項分布において、起こる確率pが非常に小さく、試行回数nが極めて大きい事象のとき(工場の不良品の発生数・火災の発生件数など)、ある期間に事象が平均してλ回(=np)発生する場合、その事象がx回起こる確率分布をポアソン分布と言います。
ある期間に平均して発生するλ回は、n→∞・p→0に限りなく近づけるため、n×pで表されるλは一定であると考えられます。ポアソン分布では、平均発生回数λがパラメーターとなります。
ポアソン分布の確率質量関数は以下のように表されます。
f(x)=\frac{e^{-λ}λ^x}{x!} (x=0,1,2,…,n λ=np e=2.7182818…)
このとき、期待値と分散は以下のように表されます。
E[X]=np=λ
V[X]=np=λ
超幾何分布
A個の成功状態を持つN個の母集団からn個の要素を非復元抽出した時、x個の成功状態が含まれている確率分布を超幾何分布と言います。パラメーターはN・A・nの3つとなります。
超幾何分布の確率質量関数は以下のように表されます。
f(x)=\frac{_AC_x・_{N-A}C_{n-x}}{_NC_n}
例)
当たりが3個含まれている100個の玉の中から10個の玉を選ぶ時、当たりが1個ある選び方
▶︎全ての玉の選び方は100C10通り
▶︎当たりが1個である時、1個の当たり玉を選ぶには3C1通りで、残りの9個の外れ玉を選ぶには97C9通り({100-3}C{10-1})
このとき、期待値と分散は以下のように表されます。
E[X]=\frac{nA}{N}
V[X]=\frac{(N-n)n(N-A)A}{(N-1)N^2}
p=A/N・n→∞とした場合、超幾何分布は二項分布の形になります。
幾何分布
成功確率がpであるベルヌーイ試行を繰り返して初めて成功が出現するまでの「連続して失敗する試行回数X」の確率分布を幾何分布と言います。初めて成功するまでの試行回数Xの確率分布のことを指す場合もあります。
幾何分布の確率質量関数は以下のように表されます。
f(x)=p・(1-p)^x
このとき、期待値と分散は以下のように表されます。
E[X]=\frac{1}{p}
V[X]=\frac{1-p}{p^2}
幾何分布は、「ある事象が生じる確率はそれまでの結果に左右されない」という無記憶性という性質を持ちます。じゃんけんで3回あいこが続いたから次もあいこになりそう、というのは幾何分布の無記憶性から間違いであると言うことができます。
負の二項分布
成功確率がpであるベルヌーイ試行を繰り返してk回の成功が出現するまでの「連続して失敗する試行回数X」の確率分布を負の二項分布と言います。負の二項分布におけるk=1の場合が幾何分布であり、負の二項分布は幾何分布を一般化したものであると言えます。
負の二項分布の確率質量関数は以下のように表されます。
f(x)=_kH_xp^k(1-p)^x=_{k+x-1}C_xp^k(1-p)^x (_kH_xは重複組み合わせ)
このとき、期待値と分散は以下のように表されます。
E[X]=\frac{k(1-p)}{p}
V[X]=\frac{k(1-p)}{p^2}
【試行回数と成功回数】
- ベルヌーイ分布・二項分布▶︎試行回数を固定し、成功回数を確率変数とする
- 幾何分布・負の二項分布▶︎試行回数を確率変数とし、成功回数(失敗回数)を固定する
指数分布
指数分布とは連続型確率分布の1つであり、起こる確率pが非常に小さく、試行回数nが極めて大きい事象において、ある期間に事象が平均してλ回(=np)一定に発生するポアソン過程に従う事象の発生間隔(時間の分布)を表す分布です。
指数分布の確率密度関数は以下のように表されます。
f(x)=λe^{-λx} (x \geq 0 λ=np)
このとき、期待値と分散は以下のように表されます。
E[X]=\frac{1}{λ}
V[X]=\frac{1}{λ^2}
離散型確率分布である幾何分布と同様に、連続型確率分布である指数分布も**「ある事象が生じる確率はそれまでの結果に左右されない」という無記憶性**という性質を持ちます。
【発生回数と発生間隔】
- ポアソン分布▶︎ポアソン過程の発生回数を確率変数とする
- 指数分布▶︎ポアソン過程の発生間隔を確率変数とする
ガンマ分布
ガンマ分布とは連続型確率分布の1つであり、起こる確率pが非常に小さく、試行回数nが極めて大きい事象において、ある期間に事象が平均してλ回(=np)一定に発生するポアソン過程に従う事象がα回発生するまでの発生間隔(時間の分布)を表す分布です。
**「ある期間λごとに1回起こるランダムな事象がα回起こるまでに時間がどれだけ経過するか」**と言い換えることができます。
ガンマ分布におけるk=1の場合が指数分布であり、ガンマ分布は指数分布を一般化したものであると言えます。
ガンマ分布の確率密度関数は以下のように表されます。
f(x)=\frac{λ^α}{Γ(α)}x^{α-1}e^{-λx} (0 \leq x \leq ∞)
このとき、期待値と分散は以下のように表されます。
E[X]=\frac{α}{λ}
V[X]=\frac{α}{λ^2}
※ガンマ関数Γ(z)は、実部が正であるような複素数zに対して次のように定義され、「階乗の一般化」であるという性質を持ちます。
Γ(z)=\int_{0}^{∞}t^{z-1}e^{-t}dt
任意の正の整数に対して Γ(n+1)=n!
幾何分布・負の二項分布・指数分布・ガンマ分布の関係性は以下のように表されます。
同時確率分布
確率変数が2つある場合に、それぞれの確率変数がとる値とその確率の分布を表したものを同時確率分布と言います。確率変数が離散型である時は「離散型同時確率分布」と言い、連続型である時は「連続型同時確率分布」と言います。
離散型同時確率分布
XとYがそれぞれ離散型確率分布である場合、Xがxi,Yがyjをとる時の同時確率分布は以下のように表せます。
f(x_i, y_j)=P(X=x_i, Y=y_j) (i=1,2,…,n j=1,2,…,n)
このときf(xi, yj)を同時確率関数と言い、確率の総和が1であることから以下の式が成立します。
\sum_{i=1}^{n}\sum_{j=1}^{n} f(x_i, y_j)=1
またある1つの確率変数を抜き出してその確率の総和を求めたものを周辺確率分布と言います。
Xの周辺確率とは、他の事象に関係なく「事象Xのみが発生する確率」を指します。
連続型同時確率分布
XとYがそれぞれ離散型確率分布である場合、XとYの同時確率分布を表す関数を同時確率密度関数と言い、f(x,y) で表します。
同時確率密度関数について、確率の総和が1であることから以下の式が成立します。
\int_{-∞}^{∞}\int_{-∞}^{∞}f(x, y)dxdy=1
正規分布
正規分布とは、平均値の付近に集積するようなデータの分布を表した連続型確率分布であり、ド・モアブルによって1733年に発見されました。
自然現象や社会現象などにおいて、母集団が正規分布するものが非常に多いという特徴があります。また確率変数が正規分布に従わない現象であっても、その標本平均の確率分布はサンプルサイズnが十分に大きいならば、**正規分布で近似できる性質(中心極限定理)**があることが分かっています
正規分布の確率密度関数は以下のように表せます。
f(x)=\frac{1}{σ\sqrt{2π}} exp \biggl(-\frac{(x-\mu)^2}{2σ^2}\biggr) (-∞ \leq x \leq ∞)
このとき、期待値と分散は以下のように表されます。
E[X]=\mu
V[X]=σ^2
f(x)の値は平均μと標準偏差σの2つのパラメーターによって決定されるため、正規分布は N(μ, σ^2)と表され、確率変数Xが正規分布に従う場合「X ~ N(μ, σ^2)」 と表記されます。
正規分布には以下のような性質があります。
- 確率密度関数f(x)は、平均μを中心に左右対称であり、x=μのとき最大値1/σ√2πをとる
- 平均値=中央値=最頻値となる
- x→±∞のとき、f(x)はx軸を漸近線とし、限りなく0に近づく
- 常にf(x)≧0であり、f(x)の全積分(全面積)は1である
- x=μ±σは、正規曲線の変曲点である
- 歪度=0・尖度=0となる
- 平均値μを中心に±σ・±2σ・±3σ(平均±標準偏差)の幅で範囲を取った際に、データがそれぞれ68.27%、95.45%、 99.73%の割合で含まれる(3σのルール・68–95–99.7則)
- 正規分布N(μ1, σ^2_1)に従うデータと、そのデータとは独立な正規分布N(μ2, σ^2_2)に従うデータを足したデータは、正規分布N(μ1+μ2, σ^2_1+σ^2_2)に従うというような、**「同じ確率分布を持つ2つの独立な確率変数の和は同じ結果の確率分布を持つ」という「再生性」**がある
※再生性を持つ確率分布として、正規分布・ベルヌーイ分布・二項分布・ポアソン分布・負の二項分布・ガンマ分布・カイ2乗分布・コーシー分布などが挙げられます。
大数の法則
「nが大きいとき標本平均は真の平均に近づく」という概要の法則を大数の法則と言います。
「近づく」という意味を数学的に以下の2つに分類することができます。
大数の弱法則
「標本平均は真の平均に確率収束する」という法則を大数の弱法則と言います。
大数の弱法則は以下のように表せます。
任意のε>0に対して \lim_{n \to \infty} P(|\bar{X}_n-\mu| \geq ε)=0
「Xnとμとの隔たりがわずかでもある確率は、nが十分に大きいと0に近づけることができる」という意味合いがあります。
大数の強法則
「標本平均は真の平均に概収束する」という法則を大数の強法則と言います。
大数の強法則は以下のように表せます。
P(\lim_{n \to \infty} \bar{X}_n=\mu)=1
「n→∞とするとき、Xnはμにほとんど確実に(almost surely)収束する」という意味合いがあります。
中心極限定理
「平均μ、分散σ^2を持つあらゆる確率分布から無作為復元抽出した標本平均Xnの分布は、nが十分に大きい時には正規分布 N(μ, σ^2/n) へ近づいていく」という定理を中心極限定理と言います。
どのような分布に従うかが不明な母集団から無作為に抽出した標本をX1,X2,…,Xnとした場合、nが十分に大きいとすると中心極限定理から以下の式が成り立ちます。
S_n=X_1+X_2+…+X_n 〜 N(n\mu, nσ^2)
\bar{X}=X_1+X_2+…+X_n/n 〜 N(\mu, σ^2/n)
※平均μ、分散σ^2の母集団から取り出した独立なn個の標本平均の分布を標本分布と言い、その平均はμ、分散はσ^2/nになります。
標準正規分布
確率変数Xが平均μ、標準偏差σの正規分布N(μ, σ^2)に従う時、Zを以下のようにおくとzは平均0・標準偏差1の正規分布N(0, 1^2)に従います。このようなxからZへの変換を標準化と言い、変換された正規分布を標準正規分布と言います。
Z=\frac{x-\mu}{σ}
標準正規分布の確率密度関数は以下のように表されます。
f(z)=\frac{1}{\sqrt{2π}} exp \biggl(-\frac{z^2}{2}\biggr) (-∞ \leq x \leq ∞)
また標準正規分布に従う確率変数Zに対して、確率P(u≦Z≦∞)をP(u)とした時、様々なuに対する確率をまとめたものを標準正規分布表と言います。全ての正規分布は標準化によって標準正規分布に変換できるため、確率変数のある実現値が得られた時、その値が分布内のどこに位置するのかを標準正規分布表を用いることで容易に調べることができます。
カイ2乗分布(χ^2分布)
Z1,Z2,…,Zkが互いに独立で標準正規分布N(0,1)に従う確率変数である時(Zは標準化変量)、次の式から算出される自由度kのχ^2が従う確率分布をカイ2乗分布と言います。
χ^2=Z_1^2+Z_2^2+…+Z_n^2
カイ2乗分布の確率密度関数は以下のように表されます。
f(χ^2)=\frac{1}{2^{\frac{k}{2}}Γ(\frac{k}{2})}(χ^2)^{({\frac{k}{2}-1})}e^{-\frac{k^2}{2}}
このとき、期待値と分散は以下のように表されます。
E[X]=k
V[X]=2k
カイ2乗分布は自由度が変化することで分布の形状も変化することが特徴です。
もともとは右の裾が長い分布をしていますが、自由度が大きくなる(足される独立な標準正規分布の個数が増える)に連れて、山の高さは低く右裾は短くなり形状は左右対称へと近づいていき、自由度が∞に近づくと正規分布に近似します。
カイ2乗分布は、2つの確率変数X1,X2がそれぞれ独立に自由度k1,k2のカイ2乗分布χ^2(k1),χ^2(k2)に従うとき、X1+X2は自由度k1+k2のカイ2乗分布χ^2(k1+k2)に従うという、再生性を持ちます。
標準正規分布N(0,1)に従うカイ2乗分布χ^2は自由度kとなりますが、「正規分布に従う母集団からの無作為標本」は自由度k-1のカイ2乗分布に従い、次のように表せます。
χ^2=\frac{(n-1)・S^2}{σ^2} (S^2は不偏分散)
自由度
ある変数において自由な値をとることができるデータの数を自由度と言います。
n個のデータx1,x2,…,xnがあるとき、これらはどれも自由な値をとることができるので自由度はnとなりますが、平均値をaとした場合、全体の平均値が変わらないようにするためには、n-1個のxiは自由な値を取れるのに対しn個目のxnは自由な値をとることができず、自由度はn-1となります。
一般にサンプルサイズをn、パラメーターをpとすると、**自由度は「n-p」で表されます。これは「1つのパラメーターを推定するたびに1つの自由度が失われる」**ことを意味しています。
以上から、算出する過程で平均値を推定する必要がある不偏分散(標本から母集団のデータの散らばりを表す)では、既に「平均値という1つのパラメーターを推定し、1つの自由度を失っている」ことから、自由に値がとれるデータの個数が1つ分減ってしまった(1つ分の情報量を失った)ため、不偏分散の分母はn-1となることが分かります。
F分布
互いに独立である確率変数X,Yについて、Xが自由度mのカイ2乗分布、Yが自由度nのカイ2乗分布に従うとき、次の式から算出されるFが従う**「自由度m,nの2変数の比の分布」をF分布**と言います。
F=\frac{X/m}{Y/n}
F分布の確率密度関数は以下のように表されます。
f(z)=\frac{(\frac{m}{n})^{\frac{m}{2}}}{B(\frac{m}{2},\frac{n}{2})} \frac{z^{\frac{m}{2}-1}}{(1+\frac{m}{n}z)^{-\frac{m+n}{2}}} (B(\frac{m}{2},\frac{n}{2}) はベータ関数)
このとき、期待値と分散は以下のように表されます。
E[X]=\frac{n}{n-2} (n>2)
V[X]=\frac{2n^2(m+n-2)}{m(n-2)^2(n-4)} (n>4)
t分布
互いに独立である確率変数Z,Wについて、Zが標準正規分布N(0,1)、Wが自由度mのカイ2乗分布に従うとき、次の式から算出されるtが従う分布をt分布と言います。
t=\frac{Z}{\sqrt{\frac{W}{m}}}
t分布の確率密度関数は以下のように表されます。
f(x)=\frac{1}{\sqrt{m}・B(\frac{m}{2},\frac{1}{2})} \biggl(\frac{x^2}{m}+1\biggr)^{-\frac{m+1}{2}} (B(\frac{m}{2},\frac{1}{2}) はベータ関数)
このとき、期待値と分散は以下のように表されます。
E[X]=0 (m>1)
V[X]=\frac{m}{m-2} (m>2)
t分布は、正規分布する母集団の平均と分散が未知で、サンプルサイズが小さい(n≦30)時に母平均を推定する際に用いられます。サンプルサイズが大きい時は、母平均を推定する際に利用する母分散の代わりに不偏分散が用いられます。
t分布の定義式の両辺2乗すると以下のようになります。
t^2=\frac{Z^2}{\frac{W}{m}}
自由度1のカイ2乗分布は標準正規分布に従う確率変数を2乗したものに等しくなるので、tが自由度mのt分布に従う時、t^2は自由度(1,n)のF分布に従います。
参考文献
- 例題で学ぶ初歩からの統計学 第2版
- 統計検定2級チートシート - Qiita
- 代表的な確率分布の特徴まとめ - Qiita
- 15-2. 離散一様分布 | 統計学の時間 | 統計WEB
- 15-3. 連続一様分布1 | 統計学の時間 | 統計WEB
- 13-3. ポアソン分布 | 統計学の時間 | 統計WEB - BellCurve
- 超幾何分布 - Wikipedia
- 超幾何分布の意味と期待値の計算 | 高校数学の美しい物語
- 幾何分布の具体例と期待値,無記憶性について | 高校数学の美しい物語
- 負の二項分布 - Wikipedia
- 指数分布 - Wikipedia
- ガンマ関数(階乗の一般化)の定義と性質 | 高校数学の美しい物語
- 15-5. 2変数の確率分布 | 統計学の時間 | 統計WEB - BellCurve
- 正規分布とは何なのか?その基本的な性質と理解するコツ|アタリマエ!
- 14-2. 正規分布の再生性と標準正規分布 | 統計学の時間 | 統計WEB
- 再生性 | 統計用語集 | 統計WEB - BellCurve
- 大数の法則と中心極限定理の意味と関係 | 高校数学の美しい物語
- 確率変数の収束と大数の法則
- 中心極限定理の例とメリットをわかりやすく解説 | AVILEN AI Trend
- 正規分布の分かりやすいまとめ | AVILEN AI Trend
- 22-1. カイ二乗分布 | 統計学の時間 | 統計WEB - BellCurve
- 自由度 | 統計学の時間 | 統計WEB - BellCurve
- 自由度 | 統計用語集 | 統計WEB - BellCurve
- 自由度
- 28-1. F分布 | 統計学の時間 | 統計WEB - BellCurve
- F分布とは? | AVILEN AI Trend
- 20-1. 標本とt分布 | 統計学の時間 | 統計WEB - BellCurve
- t分布とは何か。小標本における母平均の95%信頼区間の計算法とその解釈|アタリマエ!