ここでは、久保川達也先生著『現代数理統計学の基礎』の2.1,2.2の範囲について説明します。
2.1 確率変数
確率変数に入る前に確率の復習から始めます。
確率の復習
用語
-
集合族
集合の集合 -
元
集合の要素。集合族の元なら何らかの集合
確率は可測集合族$\mathcal{B}$の上で定義される
サイコロの例を考える。[1], [2], ... [6]でそれぞれサイコロの目が1~6で出た事象を表すとすると、起こりうる事象の全ての集まりである標本空間は$\Omega:=\{[1], [2], [3], [4], [5], [6]\}$になる。この集合$\Omega$の部分集合の集合を考えることにする。例えば$\{\{[1], [2]\},\{[3], [5], [6]\}\}$などである。
また、次のような冪集合$2^{\Omega}$を考えれば起こりうる全ての事象を網羅することができる。$2^{\Omega}:=\{\ \emptyset ,\{ [1] \},\{ [2] \},\dots,\{[1], [2], [3],[4], [5], [6]\}\}$
次にある条件を満たす集合族を考える
標本空間$\Omega$の部分集合の族$\mathcal{F}$が以下の条件を満たすとき$\mathcal{F}$を$\sigma$加法族という
\begin{align}
&(1) \Omega \in \mathcal{F} &(標本空間も含まれる)\\
&(2) A \in \mathcal{F} \Rightarrow A^C \in \mathcal{F} &(補集合も含まれる)\\
&(3) A_n \in \mathcal{F} \Rightarrow \bigcup_{n=1}^{\infty}A_n\in\mathcal{F}&(可算積も含まれる)
\end{align}
標本空間が与えられたとき$\sigma$加法族はいくらでも考えられ、考える事象によって適切に設定することになる。例えば、サイコロの出た目が偶数か奇数かを考えるときには
\Omega:=\{[1], [2], [3], [4], [5], [6]\} \\
\mathcal{F}:=\{\emptyset,\{ [1],[3],[5] \},\{ [2],[4],[6] \},\Omega \}
などである。
このように、$\Omega, \mathcal{F}$からなる二つの組$(\Omega, \mathcal{F})$を可測空間と呼ぶ。可測空間$(\Omega, \mathcal{F})$には「どのような標本が含まれているか」と「どのような標本の部分集合の集合」であるかという二つの情報が含まれている。
そして、確率は可測空間において、$\sigma$加法族から$[0,1]$に写像する確率測度である。
この確率測度も含めて$(\Omega, \mathcal{F}, P)$を確率空間という。
また、$\sigma$加法族のうち$\Omega$が実数全体$\mathbb{R}$でも確率が計算できるような集合をボレル集合族$\mathcal{B}$という。
確率変数
確率変数(random variable)は、全事象(標本空間)から実数空間への写像である。
例)
内閣の支持率を調査するために有権者1000人に対して「支持する」「支持しない」という事象をそれぞれ1,0で割り振ると全事象$\Omega$は$2^{1000}$個の元からなる
↓
「支持する」と回答した人数を$X$とおくと、$X$の取りうる値の集合は$\{ 0,1,\dots,1000\}$となり全事象を扱うよりも扱い易い
確率変数の定義として教科書内では、
一般に、$\Omega$を全事象、$\mathcal{B}$を$\Omega$の可測集合族、$P$を$(\Omega, \mathcal{B})$上の確率とするとき、$\omega\in\Omega$に対して実数値$X(\omega)\in \mathbb{R}$を対応させる関数$X$を確率変数(random variable)という
という風に書かれており、確率「変数」といいながら実際には関数である。しかし、確率変数はただ$X$と表記されることが多く関数ということを忘れがちだが、$X(\omega)$と$X$は同じものである。(同一視)
また、なぜ確率変数を関数として定義するのかについてはこちらに少し載っている。
もう少し厳密に書くと
次の性質を満たす写像$X:\Omega \rightarrow \mathbb{R}$を確率変数と呼ぶ
可測空間$(\Omega, \mathcal{F})$と可測空間$(\mathbb{R}, \mathcal{B})$について、任意の$A\in \mathcal{B}$に対して
$$X^{-1}(A)\in \mathcal{F}$$
確率変数は、$\Omega$から$\mathbb{R}$への関数$X$で、$X$が特定の値をとる確率が$\Omega$に戻れば計算できるものといえる。
次に、確率空間$(\Omega, \mathcal{F}, P)$上の確率変数$X$が与えられたとき、$X$そのものがどのように分布しているかを問題にしたい。
そこで$X$の分布(確率測度)は以下のように定義される
可測空間($\mathbb{R},\mathcal{B}(\mathbb{R})$)上の確率測度$P^X:\mathbb{R}\rightarrow\mathbb{R}$が以下を満たすとき$P^X$を分布または法則という$$\forall B \in \mathcal{B}(\mathbb{R}), P^X(B)=P(X^{-1}(B))$$
ここで$P^X$は確率変数$X$のばらつきを表す確率測度になっている。しかし、このままではわかりにくいため、次に述べる分布関数を定義する。
任意の実数$x$に対して$X\leq x$である確率は
$$
P(X\leq x)=P(\lbrace\omega \in \Omega|X(\omega)\leq x \rbrace)
$$として、$(\Omega,\mathcal{B})$上で定義された確率$P$を用いて与えることができる。
また、一つの$\omega \in \Omega$に対して$X(\omega)=x$なる$X$の値が定まり、この$x$を実現値といい、実現値の全体を$\mathcal{X} =\lbrace X(\omega)|\omega \in \Omega\rbrace$で表し、$X$の標本空間(sample space)という。
(累積)分布関数
$X \leq x$となる確率を考えてみる。
確率変数$X$の**(累積)分布関数**(cumulative distribution function; cdf)を$F_X(x)$で表し、
\begin{eqnarray}
F_X(x) &=& P(\{\omega \in \Omega|X(\omega)\leq x\}) \\
&=& P(X\leq x) \\
&=& P^X((-\infty, x])
\end{eqnarray}
と書き、以下が成り立つ
\begin{eqnarray}
P(a < X \leq b) &=& P(\{X \leq b\}\setminus \{X \leq a\}) \\
&=& P(X \leq b) - P(X \leq a) \\
&=& F_X(b) - F_X(a) \\
\end{eqnarray}
\begin{eqnarray}
P(X > a) &=& P(\Omega \setminus \{X \leq a\}) \\
&=& 1 - F_X(a)
\end{eqnarray}
累積分布関数は離散型確率変数、連続型確率変数に限らず全ての確率変数に対して定義され、確率密度関数は累積分布関数を微分して得られる(後述)
定理2.3
関数$F(x)$がある確率変数の分布関数になるための必要十分条件は次の3つが成り立つことである
\begin{align}
&(a) \; \textstyle \lim_{x \to -\infty}F(x)=0, \textstyle \lim_{x \to \infty}F(x)=1 &(有界)\\
&(b) \; x_1 < x_2 \Rightarrow F(x_1) \leq F(x_2) &(非減少)\\
&(c) \; \textstyle \lim_{x \to a+0} F(x)=F(a) & (右連続)
\end{align}
階段関数は右連続であるが左連続ではなく、連続関数は左連続かつ右連続となる。
$X$の分布関数$F_X(x)$が階段関数の時、$X$は離散型確率変数(discreate random variable)といい、$F_X(x)$が連続関数の時、$X$は連続型確率変数(continuous random variable)という。
2.2 確率(質量)関数と確率密度関数
確率(質量)関数
離散型確率変数$X$に対して
\begin{eqnarray}
F_X(x) &=& P(\{\omega \in \Omega|X(\omega) = x\}) \\
&=& P(X = x)
\end{eqnarray}
を確率(質量)関数(probability function, probability mass function; pmf)という。この教科書では、離散型確率変数$X$の標本空間を$\mathcal{X} =\lbrace x_1, x_2, \dots \rbrace, x_1<x_2<\dots$とし、$p(x_i)=P(X_i=x_i), i=1,2,\dots$として
f_X(x)=
\begin{cases}
p(x_i) & (x=x_i)\\
0 & (x\notin\mathcal{X}) \tag{2.2}
\end{cases}
と書ける
確率密度関数
連続型確率変数$X$に対して、
$$
F_X(x)=\int_{-\infty}^{x}f_X(t)dt, \quad -\infty<x<\infty
$$となる関数$f_X(x)$が存在するとき、$f_X(x)$を確率密度関数(probability denstiy function; pdf)という
また、この定義から$f_X(x)$が連続であるような点$x$に対して
$$
f_X(x)=\frac{d}{dx}F_X(x)
$$となる。また、$0<y<1$において$F_X(x_y)=y$を満たす$x_y$を分位点(quantile)といい、
$$
x_y=F_X^{-1}(y)
$$として与えられる
2.3 期待値
期待値
$g(X)$の期待値(expected value)を$E[g(X)]$で表し、
E[g(X)]=
\begin{cases}
\int_{-\infty}^{\infty}g(x)f_X(x)dx & (Xが連続型確率変数)\\
\sum_{x_i\in \mathcal{X}}g(x_i)f_X(x_i) & (Xが離散型確率変数)
\end{cases}
で定義する。ただし、$E[|g(X)|]<\infty$の時定義され、$E[|g(X)|]=\infty$のときには期待値は存在しない。
また、
$$
E[g(X)]=\int g(x)f_X(x)d\mu_X(x) \tag{2.3}
$$なる形で統一的に表記できる。
$g(X)=X$とおき、$E[|X|] < \infty$のとき、$E[X]$を$X$の期待値もしくは平均(mean)といい、$\mu=E[X]$で表す。
分散
$g(X)=(X-E[X])^2$とおき、$E[|(X-E[X])^2|] < \infty$のとき、$E[(X-E[X])^2]$を$X$の分散(variance)といい、$\text{Var}(X)$もしくは$\sigma^2$で表す。$\sigma=\sqrt{\text{Var}(X)}$を$X$の標準偏差(standard deviation)といい、$\text{SD}(X)$で表す。
命題2.9
$a,b,c$を定数として関数$g(X), g_1(X), g_2(X)$の期待値が存在すると仮定すると次が成り立つ
\begin{align}
&(1)\; E[c]=c\\
&(2)\; E[ag_1(X)+bg_2(X)]=aE[g_1(X)]+bE[g_2(X)](線形性)\\
&(3)\; すべてのxに対してg(x)\geq 0ならばE[g(X)]\geq0\\
&(4)\; すべてのxに対してg_1(x)\geq g_2(X)ならばE[g_1(X)]\geq E[g_2(X)]\\
&(5)\; |E[g(X)]| \geq E[|g(X)|]
\end{align}
(1)より、$\text{Var}(X)=E[X^2-2\mu X+\mu^2]=E[X^2]-\{E[X]\}^2$より、分散は
\begin{eqnarray}
\text{Var}(X) &=& E[X^2]-\{E[X]\}^2 \\
&=& E[X(X-1)] + E[X] - \{E[X]\}^2 \tag{2.4}
\end{eqnarray}
これは確率母関数の方が求めやすいときに分散を求める際便利
また、$aX+b$の平均と分散はそれぞれ
E[aX+b]=aE[X]+b \\
\text{Var}(aX+b)=a^2\text{Var}(X)
となり、平均は平行移動と尺度に影響を受け、分散は平行移動には不変だが、尺度の2乗倍影響をうけることが分かる。
標準化
$\mu=E[X],\sigma^2=\text{Var}(X)$なる確率変数$X$に対して、確率変数$Z$を$$Z=\frac{X-\mu}{\sigma}$$とおくと、$Z$の平均と分散がそれぞれ$0,1$になる。このように定義された$Z$を$X$の規準化(normalization)または標準化(standardization)という
歪度と尖度
平均は分布の中心を表す特性値、分散は分布の散らばり具合を表す特性値である。他にも、歪みや尖りを表す特性値として歪度(skewness)や尖度(kurtosis)が知られている。それぞれ、
\beta_1=\frac{E[(X-\mu)^3]}{\{\text{Var}(X)\}^{3/2}}, \quad \beta_2=\frac{E[(X-\mu)^4]}{\{\text{Var}(X)\}^2}
で与えられ、平均と尺度の変換に関して不変。また、それぞれ3次、4次の平均周りのモーメントを用いて$\beta_1=\mu_3/\sigma^3, \beta_2=\mu_4/\sigma^4$と表せる。
一般に、$\mu_k^{\prime}=E[X^k]$を原点周りのk次モーメント(積率)(moment)、$\mu_k=E[(X-\mu)^k]$を平均周りのk次モーメント、$E[X(X-1)\dots (X-k+1)]$をk次階乗モーメント(factorial moment)といい、これらのモーメントを生成するのが次の節で紹介する母関数である。
正規分布の場合
正規分布においては、上記の定義ではそれぞれ歪度$\beta_1=0$、尖度$\beta_2=3$となる。ただし、正規分布の尖度が$0$になるように$\beta_2-3$を尖度とする二つの定義がある。
また、輝度ヒストグラムにおいて光沢や明度が歪度とよく相関することが知られている。1
参考
-
久保川達也 『現代数理統計学の基礎』 共立出版
-
一番わかりやすいです
http://www.araliascience.com/entry/articles/swhat_random/swhat_random_4.html -
http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/rand-vari.html
-
福田徹: 証券経済研究 89(2015) p.162 fig.6
-
本吉勇: 日本色彩学会誌 31(2007) p.198 fig.1 ↩