#定義:期待値・分散
確率変数$X=x_i$となる確率を$p_i$とする。
■Xの期待値(Expectation value) (平均)
$\begin{aligned}
E[X] &= μ \
&=\displaystyle\sum_{i} x_i p_i
\end{aligned}$
期待値は、(確率変数の値)×(確率)を全て足した値である。
母集団の期待値は、慣例でmean(平均)の頭文字mのギリシャ文字であるμ(ミュー)で表現する事が多く、mは標本平均として使われる事が多い。
なお標本平均は慣例で$\bar{x}$(エックスバー)と表現される事も多い。
■Xの分散(Variance)
$\begin{aligned}
V[X]&=\sigma^2 \
&=E[(X-E[X])^2] \
&=E[(X-\mu)^2] \
&=\displaystyle\sum_{i} (x_i-\mu)^2 p_i
\end{aligned}$
母集団の標準偏差は、慣例でstandard deviationの頭文字sのギリシャ文字であるσ(シグマ)と表現する。よって母集団の標準偏差の二乗である分散を$\sigma^2$とも表現する。
また英文字$s$は標本標準偏差として、$s^2$は標本分散として表現する事が多い。
■確率変数の補足
確率変数とは、確率が与えられている変数である。確率変数は確率と紐づき、発生し得る全ての値を変数で表現している。よって、期待値$E[X]$の$X$を具体的な数値に置換してしまうと、$E[2]=2$などとなり、期待値の記号$E$を使う意味が無くなる。
#公式:期待値
・和の期待値=期待値の和 (期待値の線形性の性質)
$E[X+Y]=E[X]+E[Y]$
・定数倍の期待値=期待値の定数倍(期待値の線形性の性質)
$E[aX]=aE[X]$ (aは定数)
・独立な確率変数の積の期待値=期待値の積
XとYが独立な確率変数であるとき、積XYの期待値はそれぞれの期待値の積に等しい。
$E[XY]=E[X]E[Y]$
・定数の期待値=定数
$E[a]=a$
・定数との和の期待値=定数と期待値との和
$E[X+a]=E[X]+E[a]=E[X]+a$
#公式:分散
・分散は確率変数の二乗の期待値から期待値の二乗を引いた値として表現できる。
$
\begin{aligned}
V[X]&=\sum_{i=1}^n (x_i-\mu)^2 p_i \\
&=\sum_{i=1}^n x_i^2 p_i - 2\mu\sum_{i=1}^n x_i p_i + \mu^2\sum_{i=1}^n p_i \\
&=\sum_{i=1}^n x_i^2 p_i - 2\mu\mu + \mu^2 \\
&=\sum_{i=1}^n x_i^2 p_i - \mu^2 \\
&=E[X^2]-E[X]^2 \
\end{aligned}
$
次の様にも表現できる。
$
\begin{aligned}
V[X]&=E[(X-E[X])^2]\
&=E[X^2]-E[2X E[X]]+E[E[X]^2] ←E[2X E[X]]の内側Eは外側Eにとって定数。またE[E[Z]]=E[Z]。\
&=E[X^2]-2E[X]E[X] +E[X]^2 \
&=E[X^2]-E[X]^2
\end{aligned}
$
・X と Y が無相関なときは、和の分散=分散の和
$V[X+Y]=V[X]+V[Y]$
・定数倍の分散=期待値の定数の二乗
$V[aX]=a^2V[X]$
・定数の分散=0
$V[a]=E[(a − E[a])^2] = E[(a − a)^2] = E[0] = 0$
・定数との和の分散=分散
分散は散らばりを表すので、平行移動しても変化しない。
$V[X+a]=V[X]+V[a]=V[X]$
#各種確率分布の期待値・分散
##離散一様分布(Discrete Uniform distribution)の期待値・分散
例:
サイコロの出る目を確率変数Xとすると、Xは試行回数n=6の一様分布に従う。
$n=6, x_i=i, P(X=x_i)=p(x_i)=p_i=\dfrac{1}{6} (i=1,\cdots ,n)$
index_$i$ | 実現値_$x_i$ | 確率_$p_i$ | $x_i p_i$ | $(x_i-3.500)^2 p_i $ |
---|---|---|---|---|
1 | 1 | 0.167 | 0.167 | 1.042 |
2 | 2 | 0.167 | 0.333 | 0.375 |
3 | 3 | 0.167 | 0.500 | 0.042 |
4 | 4 | 0.167 | 0.667 | 0.042 |
5 | 5 | 0.167 | 0.833 | 0.375 |
6 | 6 | 0.167 | 1.000 | 1.042 |
合計 | 1.000 | 期待値E[X]→ 3.500 | 分散V[X]→ 2.917 |
今回の様にXが離散分布だった場合、確率$P$は確率質量関数とも呼ぶ。Xが連続分布の場合は確率密度関数と呼ぶ。確率質量関数は、表の様に全てのパターンの確率を合計すると1となる。
###公式:離散一様分布の期待値と分散
上表で期待値と分散を定義に沿って算出したが、公式でも算出できる。
離散一様分布に従う確率変数 X の確率P[X]、期待値 E[X]、分散V[X]は次の通りである。
$P(X=x_i)=\dfrac{1}{n} (x_i=1,\cdots ,n)$
$E[X]=\frac{n+1}{2}$
$V[X]=\frac{n^2-1}{12}$
公式を使って計算した結果
$E[X]=(6+1)/2=3.5$
$V[X]=(6^2-1)/12=2.917$
###証明:離散一様分布の期待値
$\begin{eqnarray*}
E[X]
&=&\sum_{i=1}^{n}x_i\frac{1}{n}\
&=&\frac{1}{n}\sum_{x_i=1}^{n}x_i\
&=&\frac{1}{n}\frac{n(n+1)}{2} ←(1+2+..+n)+(n+..+2+1)=(n+1)n より\
&=&\frac{n+1}{2}
\end{eqnarray*}$
###証明:離散一様分布の分散
$\begin{eqnarray*}
E[X^2]
&=&\sum_{i=1}^{n}x_i^2\frac{1}{n}\
&=&\frac{1}{n}\sum_{i=1}^{n}x_i^2\
&=&\frac{1}{n}\frac{n(n+1)(2n+1)}{6} ←二乗和の公式より\
&=&\frac{(n+1)(2n+1)}{6}\
\
V[X]&=&E[X^2]-{(E[X])}^2\
&=&\frac{(n+1)(2n+1)}{6}-{(\frac{n+1}{2})}^2\
&=&\frac{n^2-1}{12}
\end{eqnarray*}$
##二項分布(Binomial distribution)の期待値・分散
例:
サイコロを4回投げた時、1が出る回数を確率変数Xとすると、Xは確率p=1/6、試行回数n=4の二項分布B(n,p)に従う。
$n=4, P(X=k)={}_n{C}_k p^k(1-p)^{n-k} (k=0,\cdots ,n)$
index | 実現値_$k$ | 確率_$P(k)$ | $ k×P(k) $ | $(k-0.667)^2 P(k) $ |
---|---|---|---|---|
0 | 0 | 0.482 | 0.000 | 0.214 |
1 | 1 | 0.386 | 0.386 | 0.043 |
2 | 2 | 0.116 | 0.231 | 0.206 |
3 | 3 | 0.015 | 0.046 | 0.084 |
4 | 4 | 0.001 | 0.003 | 0.009 |
合計 | 1.000 | 期待値E[X]→0.667 | 分散V[X]→0.556 |
###公式:二項分布B(n,p)の期待値と分散
上表で期待値と分散を定義に沿って算出したが、二項分布B(n,p)に従う確率変数 X の期待値 E[X]と分散V[X]は次の通りである。
$E[X]=np$
$V[X]=np(1−p)$
公式を使って上記例を計算した結果
$E[X]=4×(1/6)=0.667$
$V[X]=4×(1/6)×(1−1/6)=0.556$
###証明:二項分布の期待値np
■証明1
$
\begin{aligned}
E[X]&=\sum_{i=0}^n x_i p_i\\
&=\sum_{i=0}^n k × {}_n{C}_k p^k(1-p)^{n-k} ……①
\end{aligned}
$
ここで二項定理より、xとyに関する次の恒等式が成り立つ。
$(x+y)^n = \displaystyle\sum_{i=0}^n {}_n{C}_k x^k y^{n-k} $
$
\begin{aligned}
例:(x+y)^4&=\frac{4!}{4!0!}x^4+\frac{4!}{3!1!}x^3y+\frac{4!}{2!2!}x^2y^2+\frac{4!}{1!3!}xy^3+\frac{4!}{0!4!}y^4\
&=x^4+4x^3y+6x^2y^2+4xy^3+y^4
\end{aligned}
$
二項定理の両辺をxで微分する。
$n(x+y)^{n-1} = \displaystyle\sum_{i=0}^n k × {}_n{C}_k x^{k-1} y^{n-k} $ ……②
両辺にxを掛ける。
$nx(x+y)^{n-1} = \displaystyle\sum_{i=0}^n k × {}_n{C}_k x^k y^{n-k} $
xにpを代入し、yに1-pを代入して整理する。
$np = \displaystyle\sum_{i=0}^n k × {}_n{C}_k p^k (1-p)^{n-k} $ ……③
①に②を代入する。
$E[X]=np$
■証明2
期待値の線形性を利用した証明。
サイコロをn回投げ、1が出る回数を確率変数$X$とする。
また、i 回目に1の目が出たときに1,2~6の目が出たときに0を取る確率変数を $X_i$ とする。
(確率$P(X_i=1)=p=1/6、 P(X_i=0)=1- p=5/6$とする。)
$X=X_1+X_2+\cdots +X_n$
期待値の線形性から
$E[X]=E[X_1]+E[X_2]+\cdots +E[X_n]$
右辺の各項はいずれも1の目が出る確率 p(=1/6) と等しいので $E[X]=np$ となる。
###証明:二項分布の分散np(1-p)
■証明1
$\begin{aligned}
V[X] = \sum_{i} (x_i-\mu)^2 p_i
=\sum_{i=0}^n k × {}_n{C}_k p^k(1-p)^{n-k} ……④
\end{aligned}$
ここで二項定理の両辺をxで微分した②にさらに微分する。
$n(n-1)(x+y)^{n-2} = \displaystyle\sum_{i=0}^n k(k-1) × {}_n{C}_k x^{k-2} y^{n-k} $
両辺にx^2を掛けると次の様になる。
$n(n-1)x^2(x+y)^{n-2} = \displaystyle\sum_{i=0}^n k(k-1) × {}_n{C}_k x^k y^{n-k} $
xにpを代入し、yに1-pを代入して整理する。
\begin{aligned}
n(n-1)p^2 &= \sum_{i=0}^n k(k-1) × {}_n{C}_k p^k (1-p)^{n-k}\\\
n(n-1)p^2 &= \sum_{i=0}^n k^2 × {}_n{C}_k p^k (1-p)^{n-k} - \sum_{i=0}^n k × {}_n{C}_k p^k (1-p)^{n-k}\\\
n(n-1)p^2 &= \sum_{i=0}^n k^2 × {}_n{C}_k p^k (1-p)^{n-k} - np\\\
n(n-1)p^2 + np &= \sum_{i=0}^n k^2 × {}_n{C}_k p^k (1-p)^{n-k}\\\
\end{aligned}
右辺は$k^2$に確率$P(X=k)$を掛けた和なので、$X^2$の期待値である。よって次の式となる。
$E[X^2] = n(n-1)p^2 + np $
$
\begin{aligned}
ここで
&V[X]=E[X^2]-E[X]^2 より\
V[X]&=( n(n-1)p^2 + np ) -(np)^2\
&=-np^2 + np\
&=np(1-p)
\end{aligned}
$
■証明2
無相関な確率変数の和の分散は分散の和の性質を利用した証明。
サイコロをn回投げ、1が出る回数を確率変数$X$とする。
また、i 回目に1の目が出たときに1,2~6の目が出たときに0を取る確率変数を $X_i$ とする。
(確率$P(X_i=1)=p=1/6、 P(X_i=0)=1- p=5/6$とする。)
$X=X_1+X_2+\cdots +X_n$
無相関な確率変数の和の分散は分散の和より
$V[X]=V[X_1]+V[X_2]+\cdots +V[X_n]=nV[X_1]$となる。
$\begin{aligned}
V[X_1]&=\sum (X_1-E[X_1])^2 P(X_1) \
&=(0-p)^2(1-p) + (1-p)^2p ←E[X_1]=1/6=p\
&=(p^2-p^3) + (p-2p^2+p^3)\
&=p(1-p)\
\end{aligned}$
よって
$V[X]=np(1-p)$
##ベルヌーイ分布(Bernoulli distribution)の期待値・分散
ベルヌーイ分布とは「成功、失敗」のように2種類のみの結果しか得られないような試行(ベルヌーイ試行)の結果を0と1で表した分布を指す。二項分布の試行回数を1としたものがベルヌーイ分布である。
$P(X=k|p) = Ber(X=k|p) = p^k(1-p)^{1-k} ;;;;;; (k \in \{0,1\} )$
例:
サイコロを1回投げた時、1の目が出た場合に確率変数Xは1を取り、2~6が出た場合に確率変数Xは0を取るとする。Xは確率p=1/6のベルヌーイ分布Ber(x|p)に従う。
index | 実現値_$k$ | 確率_$P(k)$ | $ k×P(k) $ | $(k-0.167)^2 P(k) $ |
---|---|---|---|---|
0 | 0 | 0.833 | 0.000 | 0.023 |
1 | 1 | 0.167 | 0.167 | 0.116 |
合計 | 1.000 | 期待値E[X]→0.167 | 分散V[X]→0.139 |
###公式:ベルヌーイ分布Ber(p)の期待値と分散
確率変数 X の期待値 E[X]と分散V[X]は次の通りである。
$E[X]=p$
$V[X]=p(1-p)$
公式を使って上記例を計算した結果
$E[X]=1/6=0.167$
$V[X]=(1/6)×(1−1/6)=0.167 × 0.833 = 0.139$
###証明:ベルヌーイ分布の分散p(1-p)
分散の定義より、ベルヌーイ分布の分散は次の様になる。
$V[X]=\sum_{x=0}^1 (x-\mu)^2 p(x)$
ここで、xの期待値であるμは、1となる確率を表しているので、p(x=1)に等しい。p(x=1)=μ=pとおくと、p(x=0)=1-pとなるので、分散は次の様になる。
$V[X]=(0-p)^2(1-p) + (1-p)^2(p) = p(1-p)$
##カテゴリカル分布(Categorical distribution)の期待値
カテゴリカル分布とはベルヌーイ分布を多次元にしたもので、サイコロの6面のように相互に排他的なK種類の状態のうち1つの結果しか得られないような試行を表した分布である。
2値確率変数ベクトル$\boldsymbol X=(X_1,..,X_K)$ の要素$X_k$ は0か1のどちらかの値を取り、$X_k$ のいずれか1つが1になる1-of-K表現を取る。つまり次を満たす。
$X_k \in \{0,1\}$ , $\sum_{k=1}^K X_k=1$
確率ベクトル$\boldsymbol p = (p_1,..,p_K)$ の要素$p_k$ は次を満たす。
$0≦p_k≦1$ , $\sum_{k=1}^K p_k=1$
このとき、$\boldsymbol X$ はカテゴリカル分布 $Cat(\boldsymbol x|\boldsymbol p)$ に従う。
$P(\boldsymbol X =\boldsymbol x|\boldsymbol p) = Cat(\boldsymbol X =\boldsymbol x|\boldsymbol p) = \prod_{k = 1}^K p_k^{x_k} $
例:
サイコロを1回投げた時を考える。サイコロで2が出て $x_2=1$ の状態となった観測値は$\boldsymbol x =(0,1,0,0,0,0)$と表す。
$\boldsymbol X$ は確率ベクトル$\boldsymbol p = (1/6,..,1/6) $
index | 実現値_$\boldsymbol x$ | 確率_$\boldsymbol p$ | $ Cat* \boldsymbol x $ |
---|---|---|---|
1 | 1,0,0,0,0,0,0 | 0.167, .. ,0.167 | 0.167, .. ,0 |
2 | 0,1,0,0,0,0,0 | 0.167, .. ,0.167 | 0 , .. ,0 |
... | ... | ... | ... |
6 | 0,0,0,0,0,0,1 | 0.167, .. ,0.167 | 0, .. ,0.167 |
合計 | 1, .. ,1 | 期待値E[X]→0.167, .. ,0.167 |
###公式:カテゴリカル分布Cat(x|p)の期待値
確率変数 X の期待値は
$E[X]=\boldsymbol p = (p_1,..,p_k)$