数学
統計

1.1 期待値・分散のまとめ

定義:期待値・分散

確率変数$X=x_i$となる確率を$p_i$とする。

■Xの期待値(Expectation value) (平均)
 $\begin{aligned}
E[X] &= μ \\
&=\displaystyle\sum_{i} x_i p_i
 \end{aligned}$
期待値は、(確率変数の値)×(確率)を全て足した値である。
母集団の期待値は、mean(平均)の頭文字mのギリシャ文字であるμ(ミュー)とも表現する。英文字mは標本平均として表現する事が多い。しかし標本平均で慣例として一番使われるのは、$\bar{x}$(エックスバー)という表現である。

■Xの分散(Variance)
 $\begin{aligned}
 V[X]&=\sigma^2 \\
&=E[(X-E[X])^2] \\
&=E[(X-\mu)^2] \\
&=\displaystyle\sum_{i} (x_i-\mu)^2 p_i
 \end{aligned}$
母集団の標準偏差は、standard deviationの頭文字sのギリシャ文字であるσ(シグマ)と表現する。
よって母集団の標準偏差の二乗である分散を$\sigma^2$とも表現する。
また英文字$s$は標本標準偏差として、$s^2$は標本分散として表現する事が多い。

■確率変数の補足
確率変数とは、確率が与えられている変数がであり、大文字の英字「例:X」で表す事が多い。対して、実現値(観測値)を変数として表現する場合は小文字の英字「例:x」を使う事が多い。
確率変数は、確率と紐づき、発生し得る全ての値を一文字で表現している。よって、期待値$E[X]$の$X$を具体的な数値に置換してしまうと、$E[2]=2$などとなり、期待値記号$E$の意味をなさなくなる。
期待値や分散の括弧をカギ括弧"[","]"で表現する事が多いが、これは確率変数を扱っている事を強調する為である。

余談だが、確率を表す$P$は、サイコロの目を確率変数Xとすれば$P(X=1)=P(X<2)=P(1)=1/6$などと使い、パラメータには確率変数ではなく実現値が入る。$P(X)$と表現している場合も$P(X=x_k)  (k=1,2,\cdots 6)$を省略表現しただけで、実現値が入っているとみなす。
 

期待値と平均値の違い

・参考:算術平均の定義 $ \bar{x} = μ=\displaystyle\sum_{i=1}^{n}\frac{x_i}{n}$
算術平均は、(値)×(1/試行回数)を全て足した値だが、1/nを確率と見做して$p_i$と表現すれば、期待値の定義と同じ数式になる。加重平均に至っては、加重と確率を同じ意味ととらえれば、期待値と全く同じ定義である。
期待値は確率の重みで平均した値という表現もあるが、やろうと思えばどんな変数でも確率と紐づける事が可能なので、どんな平均でも期待値と言えてしまいそうだ。

サイコロを例に、期待値と平均値の違いを表現しよう。
「サイコロの出目の期待値は3.5で固定である。しかし平均値はサイコロを振った試行の結果に依存し、3.5になるとは限らない。ただし試行回数を増やせば、平均値は期待値3.5に近づいて行く。」

つまり期待値は理論値を表し、平均値は基本的に実績値を表すと考えればよいだろう。とは言え、理論値であっても誰にでも通用する「平均値」を言葉として使うことは多く、その使い方は市民権を得ている。人によって使い方が変わる言葉である点に注意したい。

 

公式:期待値

・和の期待値=期待値の和 (期待値の線形性の性質)
 $E[X+Y]=E[X]+E[Y]$

・定数倍の期待値=期待値の定数倍(期待値の線形性の性質)
 $E[aX]=aE[X]$  (aは定数)

・独立な確率変数の積の期待値=期待値の積
 XとYが独立な確率変数であるとき、積XYの期待値はそれぞれの期待値の積に等しい。
 $E[XY]=E[X]E[Y]$ 

・定数の期待値=定数
 $E[a]=a$

・定数との和の期待値=定数と期待値との和
 $E[X+a]=E[X]+E[a]=E[X]+a$

公式:分散

・分散は確率変数の二乗の期待値から期待値の二乗を引いた値として表現できる。
 $
 \begin{aligned}
 V[X]&=\sum_{i=1}^n (x_i-\mu)^2 p_i \\
&=\sum_{i=1}^n x_i^2 p_i - 2\mu\sum_{i=1}^n x_i p_i + \mu^2\sum_{i=1}^n p_i \\
&=\sum_{i=1}^n x_i^2 p_i - 2\mu\mu + \mu^2 \\
&=\sum_{i=1}^n x_i^2 p_i - \mu^2 \\
&=E[X^2]-E[X]^2 \
 \end{aligned}
 $
 次の様にも表現できる。
 $
 \begin{aligned}
 V[X]&=E[(X-E[X])^2]\\
&=E[X^2]-E[2X E[X]]+E[E[X]^2] ←E[2X E[X]]の内側Eは外側Eにとって定数。またE[E[Z]]=E[Z]。\\
&=E[X^2]-2E[X]E[X] +E[X]^2 \\
&=E[X^2]-E[X]^2
 \end{aligned}
 $

・X と Y が無相関なときは、和の分散=分散の和
 $V[X+Y]=V[X]+V[Y]$

・定数倍の分散=期待値の定数の二乗
 $V[aX]=a^2V[X]$

・定数の分散=0
 $V[a]=E[(a − E[a])^2] = E[(a − a)^2] = E[0] = 0$

・定数との和の分散=分散
 分散は散らばりを表すので、平行移動しても変化しない。
 $V[X+a]=V[X]+V[a]=V[X]$

離散一様分布(Discrete Uniform distribution)の期待値・分散

例:
サイコロの出る目を確率変数Xとすると、Xは試行回数n=6の一様分布に従う。
 $n=6, x_i=i, P(X=x_i)=p(x_i)=p_i=\dfrac{1}{6} (i=1,\cdots ,n)$

index_$i$ 実現値_$x_i$ 確率_$p_i$ $x_i p_i$ $(x_i-3.500)^2 p_i $
1 1 0.167 0.167 1.042
2 2 0.167 0.333 0.375
3 3 0.167 0.500 0.042
4 4 0.167 0.667 0.042
5 5 0.167 0.833 0.375
6 6 0.167 1.000 1.042
合計 1.000 期待値E[X]→ 3.500 分散V[X]→ 2.917

今回の様にXが離散分布だった場合、確率$P$は確率質量関数とも呼ぶ。Xが連続分布の場合は確率密度関数と呼ぶ。確率質量関数は、表の様に全てのパターンの確率を合計すると1となる。

公式:離散一様分布の期待値と分散

上表で期待値と分散を定義に沿って算出したが、公式でも算出できる。
離散一様分布に従う確率変数 X の確率P[X]、期待値 E[X]、分散V[X]は次の通りである。
 $P(X=x_i)=\dfrac{1}{n} (x_i=1,\cdots ,n)$
 $E[X]=\frac{n+1}{2}$
 $V[X]=\frac{n^2-1}{12}$

公式を使って計算した結果は当然上表と同じ値となる。
 $E[X]=(6+1)/2=3.5$
 $V[X]=(6^2-1)/12=2.917$

証明:離散一様分布の期待値

$\begin{eqnarray*}
E[X]
&=&\sum_{i=1}^{n}x_i\frac{1}{n}\\
&=&\frac{1}{n}\sum_{x_i=1}^{n}x_i\\
&=&\frac{1}{n}\frac{n(n+1)}{2} ←(1+2+..+n)+(n+..+2+1)=(n+1)n より\\
&=&\frac{n+1}{2}
\end{eqnarray*}$

証明:離散一様分布の分散

$\begin{eqnarray*}
E[X^2]
&=&\sum_{i=1}^{n}x_i^2\frac{1}{n}\\
&=&\frac{1}{n}\sum_{i=1}^{n}x_i^2\\
&=&\frac{1}{n}\frac{n(n+1)(2n+1)}{6} ←二乗和の公式より\\
&=&\frac{(n+1)(2n+1)}{6}\\
\\
V[X]&=&E[X^2]-{(E[X])}^2\\
&=&\frac{(n+1)(2n+1)}{6}-{(\frac{n+1}{2})}^2\\
&=&\frac{n^2-1}{12}
\end{eqnarray*}$

二項分布(Binomial distribution)の期待値・分散

例:
サイコロを4回投げた時、1が出る回数を確率変数Xとすると、Xは確率p=1/6、試行回数n=4の二項分布B(n,p)に従う。
 $n=4, P(X=k)={}_n{C}_k p^k(1-p)^{n-k}   (k=0,\cdots ,n)$

index 実現値_$k$ 確率_$P(k)$ $ k×P(k) $ $(k-0.667)^2 P(k) $
0 0 0.482 0.000 0.214
1 1 0.386 0.386 0.043
2 2 0.116 0.231 0.206
3 3 0.015 0.046 0.084
4 4 0.001 0.003 0.009
合計 1.000 期待値E[X]→0.667 分散V[X]→0.556

公式:二項分布B(n,p)の期待値と分散

上表で期待値と分散を定義に沿って算出したが、公式でも算出できる。
二項分布B(n,p)に従う確率変数 X の期待値 E[X]と分散V[X]は次の通りである。
 $E[X]=np$
 $V[X]=np(1−p)$

公式を使って計算した結果は当然上表と同じ値となる。
 $E[X]=4×(1/6)=0.667$
 $V[X]=4×(1/6)×(1−1/6)=0.556$
 
 

証明:二項分布の期待値np

■証明1
$
\begin{aligned}
E[X]&=\sum_{i=0}^n x_i p_i\\
&=\sum_{i=0}^n k × {}_n{C}_k p^k(1-p)^{n-k}   ……①
\end{aligned}
$

ここで二項定理より、xとyに関する次の恒等式が成り立つ。
$(x+y)^n = \displaystyle\sum_{i=0}^n {}_n{C}_k x^k y^{n-k} $
 $
 \begin{aligned}
 例:(x+y)^4&=\frac{4!}{4!0!}x^4+\frac{4!}{3!1!}x^3y+\frac{4!}{2!2!}x^2y^2+\frac{4!}{1!3!}xy^3+\frac{4!}{0!4!}y^4\\
   &=x^4+4x^3y+6x^2y^2+4xy^3+y^4
 \end{aligned}
 $

二項定理の両辺をxで微分する。
$n(x+y)^{n-1} = \displaystyle\sum_{i=0}^n k × {}_n{C}_k x^{k-1} y^{n-k} $ ……②

両辺にxを掛ける。
$nx(x+y)^{n-1} = \displaystyle\sum_{i=0}^n k × {}_n{C}_k x^k y^{n-k} $

xにpを代入し、yに1-pを代入して整理する。
$np = \displaystyle\sum_{i=0}^n k × {}_n{C}_k p^k (1-p)^{n-k} $ ……③

①に②を代入する。
$E[X]=np$
 
 
■証明2
期待値の線形性を利用した証明。

サイコロをn回投げ、1が出る回数を確率変数$X$とする。
また、i 回目に1の目が出たときに1,2~6の目が出たときに0を取る確率変数を $X_i$ とする。
(確率$P(X_i=1)=p=1/6、 P(X_i=0)=1- p=5/6$とする。)
$X=X_1+X_2+\cdots +X_n$
期待値の線形性から
$E[X]=E[X_1]+E[X_2]+\cdots +E[X_n]$
右辺の各項はいずれも1の目が出る確率 p(=1/6) と等しいので $E[X]=np$ となる。
 
 

証明:二項分布の分散np(1-p)

■証明1
 $\begin{aligned}
V[X] = \sum_{i} (x_i-\mu)^2 p_i
=\sum_{i=0}^n k × {}_n{C}_k p^k(1-p)^{n-k}   ……④
\end{aligned}$

ここで二項定理の両辺をxで微分した②にさらに微分する。
$n(n-1)(x+y)^{n-2} = \displaystyle\sum_{i=0}^n k(k-1) × {}_n{C}_k x^{k-2} y^{n-k} $

両辺にx^2を掛けると次の様になる。
$n(n-1)x^2(x+y)^{n-2} = \displaystyle\sum_{i=0}^n k(k-1) × {}_n{C}_k x^k y^{n-k} $

xにpを代入し、yに1-pを代入して整理する。

\begin{aligned}
n(n-1)p^2 &= \sum_{i=0}^n k(k-1) × {}_n{C}_k p^k (1-p)^{n-k}\\\
n(n-1)p^2 &= \sum_{i=0}^n k^2 × {}_n{C}_k p^k (1-p)^{n-k} - \sum_{i=0}^n k × {}_n{C}_k p^k (1-p)^{n-k}\\\
n(n-1)p^2 &= \sum_{i=0}^n k^2 × {}_n{C}_k p^k (1-p)^{n-k} - np\\\
n(n-1)p^2 + np &= \sum_{i=0}^n k^2 × {}_n{C}_k p^k (1-p)^{n-k}\\\
\end{aligned}

右辺は$k^2$に確率$P(X=k)$を掛けた和なので、$X^2$の期待値である。よって次の式となる。
$E[X^2] = n(n-1)p^2 + np $
$
\begin{aligned}
ここで
&V[X]=E[X^2]-E[X]^2 より\\
V[X]&=( n(n-1)p^2 + np ) -(np)^2\\
&=-np^2 + np\\
&=np(1-p)
\end{aligned}
$
 
 
■証明2
無相関な確率変数の和の分散は分散の和の性質を利用した証明。

サイコロをn回投げ、1が出る回数を確率変数$X$とする。
また、i 回目に1の目が出たときに1,2~6の目が出たときに0を取る確率変数を $X_i$ とする。
(確率$P(X_i=1)=p=1/6、 P(X_i=0)=1- p=5/6$とする。)
$X=X_1+X_2+\cdots +X_n$

無相関な確率変数の和の分散は分散の和より
$V[X]=V[X_1]+V[X_2]+\cdots +V[X_n]=nV[X_1]$となる。

$\begin{aligned}
V[X_1]&=\sum (X_1-E[X_1])^2 P(X_1) \\
&=(0-p)^2(1-p) + (1-p)^2p   ←E[X_1]=1/6=p\\
&=(p^2-p^3) + (p-2p^2+p^3)\\
&=p(1-p)\\
\end{aligned}$
よって
$V[X]=np(1-p)$
 
 
 

ベルヌーイ分布(Bernoulli distribution)の期待値・分散

ベルヌーイ分布とは「成功、失敗」のように2種類のみの結果しか得られないような試行(ベルヌーイ試行)の結果を0と1で表した分布を指す。二項分布の試行回数を1としたものがベルヌーイ分布である。
例:
サイコロを1回投げた時、1の目が出た場合に確率変数Xは1を取り、2~6が出た場合に確率変数Xは0を取るとする。Xは確率p=1/6のベルヌーイ分布Ber(p)に従う。

$P(X=k) = p^k(1-p)^{1-k}  (k=0,1) , p=1/6$

index 実現値_$k$ 確率_$P(k)$ $ k×P(k) $ $(k-0.167)^2 P(k) $
0 0 0.833 0.000 0.023
1 1 0.167 0.167 0.116
合計 1.000 期待値E[X]→0.167 分散V[X]→0.139

公式:ベルヌーイ分布Ber(p)の期待値と分散

上表で期待値と分散を定義に沿って算出したが、公式でも算出できる。
確率変数 X の期待値 E[X]と分散V[X]は次の通りである。
 $E[X]=p$
 $V[X]=p(1-p)$

公式を使って計算した結果は当然上表と同じ値となる。
 $E[X]=1/6=0.167$
 $V[X]=(1/6)×(1−1/6)=0.167 × 0.833 = 0.139$

証明:ベルヌーイ分布の分散p(1-p)

分散の定義より、ベルヌーイ分布の分散は次の様になる。
 $V[X]=\sum_{x=0}^1 (x-\mu)^2 p(x)$
ここで、xの期待値であるμは、1となる確率を表しているので、p(x=1)に等しい。p(x=1)=μ=pとおくと、p(x=0)=1-pとなるので、分散は次の様になる。
 $V[X]=(0-p)^2(1-p) + (1-p)^2(p) = p(1-p)$