はじめに
この記事は統計検定2級合格への道 〜その④〜の続編です。
この記事は「改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎」を参考に、私が学んだ内容をまとめたものです。
離散型確率分布
ベルヌーイ分布
注目している結果の起こる確率は一定で、各回の試行結果は互いに独立であるような試行(例えば、サイコロで偶数の目が出る、コインで表が出る、という試行)をベルヌーイ試行という。
成功の事象と失敗の事象をそれぞれ1と0で表し、成功する確率を$p$とする。特に、1回のベルヌーイ試行で得られる結果の確率分布をベルヌーイ分布とよぶ。
ベルヌーイ分布の確率関数は、以下のように表され、
\begin{align}
P(X = 1) &\equiv f(1) = p \\
P(X = 0) &\equiv f(0) = 1 - p
\end{align}
その期待値と分散は、
\begin{align}
\mu &= p \\
\sigma^{2} &= p(1 - p)
\end{align}
となる。
二項分布
成功確率pのn回のベルヌーイ試行を行ったとき、成功の回数がx回、失敗の回数が(n - x)回である確率は、以下のように計算される。
P(X = x) \equiv f(x) = {}_{n}C_{x} p^{x} (1 - p)^{n - x}
この確率分布は二項分布とよばれ、パラメータ*(n, p)*が与えられると確率分布が決定できるので、記号$B(n, p)$で表される。
その期待値と分散は、
\begin{align}
\mu &= np \\
\sigma^{2} &= np (1 - p)
\end{align}
となる。
ポアソン分布
ポアソン分布は、二項分布$B(n, p)$において期待値$np=\lambda$を固定し、試行回数と成功確率について$n \rightarrow \infty, p \rightarrow 0$のような極限をとったときに得られる確率分布として定義される。
ポアソン分布は、試行回数が大きく($n \rightarrow \infty$)、起こりにくい($p \rightarrow 0$)事象を解析するために用いられる。
ポアソン分布の確率関数は、
\begin{align}
f(x) = {e^{-\lambda}\lambda^{x} \over x!}
\end{align}
と表され、その期待値と分散は、
\begin{align}
\mu &= np = \lambda \\
\sigma^{2} &= np (1 - p) = \lambda
\end{align}
となる。(上記で、$np=\lambda$及び$p\rightarrow 0$を用いた)
幾何分布
成功の確率が$p$であるベルヌーイ試行を、初めて成功するまで繰り返した時の試行回数$X$の確率分布を幾何分布という。
$x$回目に初めて成功する場合、それまでの$x-1$回は失敗したことになるため、
その確率は、
\begin{align}
f(x) = p(1 - p)^{x - 1}
\end{align}
と表される。
幾何分布の期待値と分散は、
\begin{align}
\mu &= {1 \over p} \\
\sigma^{2} &= {1 - p \over p^{2}}
\end{align}
となる。
連続型確率分布
一様分布
区間[$a$, $b$]内のどの値も同じ起こりやすさをもつ、すなわち、確率密度関数が
f(x) = \begin{cases}
{1 \over b - a} & (a \leq x \leq b) \\
0 & (otherwise)
\end{cases}
で表される分布を一様分布とよぶ。
一様分布に従う確率変数を$X$とするとき、その期待値と分散は、
\begin{align}
E[X] &= \int^{b}_{a} {x \over b - a} dx = {a + b \over 2} \\
V[X] &= \int^{b}_{a} {x^{2} \over b - a} dx - \Big({a + b \over 2}{\Big)}^{2} = {(b - a)^{2} \over 12}
\end{align}
となる。
正規分布
\begin{align}
f(x) = {1 \over \sqrt{2\pi\sigma^{2}}}\exp\Big\{ -{(x - \mu)^{2} \over 2\sigma^{2}} \Big\}
\end{align}
上記のような確率密度関数で表される分布を正規分布またはガウス分布とよぶ。
この関数は平均$\mu$を中心にして左右対称で$x=\mu$で最大値をとり、
標準偏差$\sigma$を用いて、確率変数$X$が$(\mu-\sigma,\mu+\sigma)$に入る確率は約68%、$(\mu-2\sigma,\mu+2\sigma)$に入る確率は約95%となるという性質をもつ。
確率変数$X$を、
\begin{align}
Z = (X - \mu) / \sigma
\end{align}
と変換すると、$Z$は平均0、分散1の正規分布(標準正規分布)に従う。このような$X$から$Z$への変換を標準化という。
標準正規分布の確率密度関数は、
\begin{align}
f(x) = {1 \over \sqrt{2\pi}}\exp\Big\{ -{z^{2} \over 2} \Big\}
\end{align}
と表される。
おわりに
どんなデータも、基本的には正規分布で近似しとけば大体上手くいくと信じてます。