4
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Juliaで学ぶ確率変数(1) - 確率変数の定義

Last updated at Posted at 2018-11-12

Juliaで学ぶ確率変数(1) - 確率変数の定義 - Qiita
Juliaで学ぶ確率変数(2) - 2項分布(離散型) - Qiita
Juliaで学ぶ確率変数(3) - 幾何分布(離散型) - Qiita
Juliaで学ぶ確率変数(4) - ポアソン分布(離散型) - Oiita
Juliaで学ぶ確率変数(5) - 正規分布(連続型) - Qiita
Juliaで学ぶ確率変数(6) - 一様分布(連続型) - Qiita
Juliaで学ぶ確率変数(7) - 指数分布(連続型) - Qiita
Juliaで学ぶ確率変数(8) - ガンマ分布(連続型) - Qiita
Juliaで学ぶ確率変数(9) - ベータ分布(連続型) - Qiita
Juliaで学ぶ確率変数(10) - コーシー分布(連続型) - Qiita
Juliaで学ぶ確率変数(11) - まとめ - Qiita

 確率変数を勉強中ですが、「確率統計」(森北出版) は数学的に明確な定義がしっかり書かれているので、これを中心に勉強しています。あわせて 「統計学入門」(東京大学出版会)「確率論入門」(ちくま学芸文庫、赤攝也) も併読しています。

 本記事は、それらの教科書を読みながら、実際に例題や問題をJuliaで解いていく試みです。

Distributions Package - Juliaの確率変数

1.確率変数

確率論において、試行の結果、はじめて値が確定する変数Xを確率変数と呼びます。

  • サイコロを振る試行の時、出る目をXとする。
  • トランプを引くとき、カードの番号をXとする。
  • 全国の中学生に対して、それぞれの身長をXで表す。
  • 全国の中学3年生から無作為に10人選ぶ(試行。根元事象は10人選ぶ選択肢の数だけある)。その試行の結果として統一試験の国語の平均点Xが確定する。確率変数ではXが40点、50点、60点などの確率P(X=40), P(X=50), P(X=60)を考えていくことになります。

確率変数の抽象的な定義に飛び込む前に、「確率統計」(森北出版)での具体例での定義を紹介します。

サイコロを一回振る施行を考える。
Ω = {1, 2, 3, 4, 5, 6}
根元事象の確率 pi = P({i}) = 1/6    (i=1,2,...,6)

実数値関数 X : Ω -> R とする。
実数値関数Xを固定し、x を任意の実数とし、Exを以下のように定義する。
Ex = {w | X(w) <= x}

実数値関数として次の3つの場合を考える

(1) X(w) = w の場合
P(Ex) = 0       x < 1
P(Ex) = 1/6      1 <= x <2
P(Ex) = 1       6 <= x

(2) X(w) = w x w (w の2乗)の場合
P(Ex) = 3/6 = 1/2  x = 9  (Ex = {1. 2. 3})

(3) X(w) = 100 (w=1 or w=6 のとき)、  -50 (それ以外のとき)
P(Ex) = 0      x < -50
P(Ex) = 2/3     -50 <= x < 100
P(Ex) = 100     100 <= x

任意の実数値 x に対して確率 P(Ex) が定まる実数値関数 X = X(w) を確率変数と定義する。 X = X(w) の選び方は任意なので、この定義によりさまざまな確率変数を考えることができる。

「確率統計」(森北出版)では一般集合の場合の定義が与えられています。

\begin{align}
\\
&(\Omega, \Gamma, p)が以下を満たすとき確率空間という。\\
\\
&\Omega : 標本空間(全事象)\\
&\Gamma : \Omegaの部分集合の完全加法族(確率事象の族)\\
&p : \Gamma \rightarrow R,\qquad [P1],[P2],[P3]の条件を満たす\\
\\
&[P1] \; p(A) \geqq 0 \qquad for \; all \; A \in \Gamma\\
&[P2] \; p(\Omega) = 1\\
&[P3] \; 完全加法性 \; A_1,A_2,... \in \Gamma が排反な事象であれば、\\
&\qquad \qquad p(\cup_{i=1}^\infty A_i) = \sum_{i=1}^\infty p(A_i)\\
 
\\
&以下のような任意の写像Xを考えます。\\
&X : \Omega \rightarrow R\\
&この場合、Xは各根元事象に 「値を任意に割り振るルール」に他なりません。\\
\\
&次に、Xに対して事象E_xを以下のように定義する。\\
&E_x \equiv \{ X \leqq x \} \equiv \{\; \omega \in \Omega \; | \; X(\omega) \leqq x \;\}\\
\\
&この時以下が成り立てば、Xを\textbf{確率変数}という。\\
&E_x \in \Gamma \qquad for \; all \; x \in R \\
&これはつまりE_xが確率事象であり、 p(E_x)が存在することを意味する。\\
\\
\\
&F_X(x)を確率変数Xの\textbf{分布関数}という。\\
&F_X(x) = p(E_x) \qquad...\qquad確率変数Xがx以下となる事象の確率\\
\\
\\
&以下の2つの場合に分けて確率変数を見ていきたいと思います。\\
\\
&(1)離散型確率変数の場合\\
&確率分布と確率関数が1対1対応している。\\
&f_X(k) = F_X(k+\epsilon)-F_X(k-\epsilon) \quad (\epsilon > 0は十分小さい値) \quad \leftarrow \textbf{確率関数} \\
\\
&F_X(x) = \sum_{k \leqq x} f_X(k)\\
&(*)f_X(k)=p(\{X=k\})なので、F_X(x)とf_X(k)の求め安さは変わらない\\
\\
&(2)連続型確率変数の場合\\
&確率分布と確率密度関数が1対1対応している。\\
&f_X(x) = \frac {d}{dx} F_X(x)  \qquad \leftarrow \textbf{確率密度関数}\\
&F_X(x) = \int_{-\infty}^{x} f_X(v) dv \qquad...\qquad \textbf{分布関数は確率密度関数の面積で表現される。}\\

&\qquad \qquad  \qquad \qquad  \qquad \qquad  \qquad \qquad \qquad  \qquad \qquad \qquad \qquad  \qquad \qquad \qquad  \qquad \\
\end{align}

確率変数Xが有限の場合ですが、以下のような表を確率分布表と呼びます。

確率変数X 確率
$$ x_1 $$ $$ p_1 $$
$$ x_2 $$ $$ p_2 $$
--- ---
$$ x_n $$ $$ p_n $$

確率変数Xが連続型の場合は、確率密度関数の面積で考えることになります。

(確率変数の例)

少し直感的な意味付けを与えるために例を挙げます。

\begin{align}
&確率pで表が出るコインを、n回投げる施行を考える。\\
&標本空間(全事象)は以下のようになる。\\

&\Omega \equiv \{ (a_1, a_2, a_3, ..., a_n) \; | \; a_i= 1 \;  or \; 0\} \\
&ここでa_i=1は表、a_i=0は裏を表すとする。\\\\
&確率変数Xは、単に要素に対して表の個数rをマップするものと定義できる。\\
&X : \Omega \rightarrow R\\\\
&iを1~nの任意の値とするとき、\Gamma は以下の要素からなる集合となる。\\
&\{\; \omega \in \Omega \; | \; X(\omega) = i \;\}\\\\

&この時、表がr回出る確率は以下の式で表せる。\\
&\begin{bmatrix}
n  \\
r 
\end{bmatrix} p^r (1 - p)^{n-r}\\

&\qquad \qquad  \qquad \qquad  \qquad \qquad  \qquad \qquad \qquad  \qquad \qquad \qquad \qquad  \qquad \qquad \qquad  \qquad  \\
\end{align}

2.離散型確率変数(確率関数)

確率変数Xのとる値が可算個(有限個)の場合、Xは離散型確率変数といいます。さらにこの場合、この本では確率関数(probability function)なる概念が導入されます。これが「1.確率変数(有限集合)」で定義した確率分布の定義そのものになります。そして確率分布と確率関数が1対1に対応していることが示されています。

以下、離散型確率変数Xを考えていきます。

\begin{align}
\\
&Im(X) = \{ 0, 1, 2,...\} \quad とする(Xのとる値は可算、有限個)\\
&\{ X = k \} \equiv \{\; \omega \in \Omega \; |  \; X(\omega) = k \; \} \qquad (k=0,1,2,...)\\
\\
&明らかに各\{ X = k \}は排他的であり、\\
&\Omega = \cup_{k=0}^\infty \{ X = k \}\\
\\
&このとき明らかに以下が成り立つ。\\
&\{ X \leqq x \} = \cup_{k \leqq x} \{ X = k \}\\
\\
&確率関数f_X(k)を以下のように定義する。\\
&f_X(k) \equiv p(\{X=k\}) = p_k  \qquad (k=0,1,2,...)\\ 
\\
&*** k \rightarrow p_k の対応付けが確率分布の本質になります。\\
&*** \Omega = \cup_k \{X=k\} と分割できるようにXを決めればよい。\\
&*** しかし\OmegaやXが明示的に与えられることは、必ずしも必要ではない。\\
\\
\\
&確率空間の定義の[P3]完全加法性より、\\
&p(\{X \leqq x\}) = \sum_{k \leqq x} f_X(k)\\
\\
\\
&確率の定義、[P1],[P2],[P3]より以下が成り立つ。\\
&f_X(k) \geqq 0  \qquad (k=0,1,2,...)\\
&\sum_{k=0}^\infty f_X(k) = \sum_{k=0}^\infty p(\{X=k\}) = p(\cup_{k=0}^\infty \{ X = k \}) = p(\Omega) = 1\\
\\
\\
&また以下の2式が成り立つことより、\\
&確率分布F_X(x)と確率関数f_X(x)が一対一対応しているといえます。\\
\\
&f_X(k) = F_X(k+\epsilon)-F_X(k-\epsilon) \qquad \epsilon > 0は十分小さい値\\
\\
&F_X(x)  = p(\{X \leqq x\}) = \sum_{k \leqq x} f_X(k)\\

\\
\\

&\qquad \qquad  \qquad \qquad  \qquad \qquad  \qquad \qquad \qquad  \qquad \qquad \qquad \qquad  \qquad  \qquad \qquad \qquad \qquad \\
\end{align}

離散型確率変数の場合は確率関数、連続型確率変数の場合は確率密度関数です。定義が違います。しかし使われ方が似ているので、どちらの場合も確率密度関数と呼ばれることがあるようです。どちらもf(x)と記されます。Juliaのドキュメントでも確率密度関数(probability density function、PDF)で統一されています。以下本記事でも、確率関数を確率密度関数で統一します。

またこのとき、確率変数 X は,確率分布 f(x) に従う、という言い方がされます。

**確率変数Xは、Im(X)をx軸、対応するpをy軸にとりグラフ化するとわかりやすくなります。**本記事でもJuliaのPlotsで要所要所でグラフを表示していきます。

##2-1.離散型確率変数の平均、分散、標準偏差

離散型確率変数を特徴づける量である、平均(mean)(=期待値)、分散(variance)、標準偏差(standard deviation)の定義をまとめます。

\begin{align}
\\
&平均\\
&E[X] = \sum_{k=0}^\infty kf_X(k)\\
\\
&分散\\
&V[X] = E[(X-E[X])^2]=E[X^2]-(E[X])^2\\
\\

&\qquad \qquad  \qquad \qquad  \qquad \qquad  \qquad \qquad \qquad  \qquad \qquad \qquad \qquad  \qquad\\
\end{align}

分散の平方根が標準偏差です。

また、今後、以下のように確率密度関数、確率分布を略記します。Xを省略します。

\begin{align}
&f(x) = f_X(x)\\
&F(x) = F_X(x)\\
\\
&\qquad \qquad  \qquad \qquad  \qquad \qquad  \qquad \qquad \qquad  \qquad \qquad \qquad \qquad  \qquad\\
\end{align}

3.連続型確率変数(確率密度関数)

確率変数Xのとる値が可算個(有限個)の場合、Xは離散型確率変数といいました。可算個を超える場合は、連続型確率変数と呼ばれます。主に確率変数が、以下のように確率密度関数というものが存在して、その積分として表される場合を考えていきます。

\begin{align}
\\
&確率変数Xの分布F_X(x)が以下の式で表される連続型確率変数を考える。\\
&f_X(x) \geqq 0 \;は積分可能な実数値関数で、確率密度関数といわれる。\\
\\
&F_X(x) = p(\{X \leqq x\}) = \int_{-\infty}^{x} f_X(v) dv\\
\\
\\
&p(\alpha < X \leqq \beta) = p(X \leqq \beta) - p(X \leqq \alpha)
= F_X(\beta) - F_X(\alpha) = \int_{\alpha}^{\beta} f_X(x) dx
\\
\\
&特に、\alpha \rightarrow -\infty \quad \beta \rightarrow \infty \quad の時、f_X(x)について以下の等式の成立が要求される。\\
&p(\Omega) = p(-\infty < X \leqq \infty) = \int_{-\infty}^{\infty} f_X(x) dx = 1\\ 
\\
\\
&また確率密度関数は以下のように表される。\\
&f_X(x) = \frac {d}{dx} F_X(x) \\
\\
\\
&平均の定義\\
&E[X] = \int_{-\infty}^{\infty} xf_X(x) dx\\
\\
&分散\\
&V[X] = \int_{-\infty}^{\infty} (x - E[X])^2 f_X(x) dx\\
\\
\\
&\qquad \qquad  \qquad \qquad  \qquad \qquad  \qquad \qquad \qquad  \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad\\
\end{align}

3-1.連続型確率変数の平均、分散、標準偏差

連続型確率変数を特徴づける量である、平均(mean)(=期待値)、分散(variance)の定義をまとめます。

\begin{align}
\\
&平均\\
&E[X] = \int_{-\infty}^{\infty} xf_X(x) dx\\
\\
&分散\\
&V[X] = \int_{-\infty}^{\infty} (x - E[X])^2 f_X(x) dx\\
\\
\\
&*** 比較のため離散型の平均と分散 ***\\
\\
&平均\\
&E[X] = \sum_{k=0}^\infty kf_X(k)\\
\\
&分散\\
&V[X] = \sum_{k=0}^\infty (k-E[X])^2f_X(k)\\
\\
&\qquad \qquad  \qquad \qquad  \qquad \qquad  \qquad \qquad \qquad  \qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad\\
\end{align}

また、今後、以下のように確率密度関数、確率分布を略記します。Xを省略します。

\begin{align}
&f(x) = f_X(x)\\
&F(x) = F_X(x)\\
\\
&\qquad \qquad  \qquad \qquad  \qquad \qquad  \qquad \qquad \qquad  \qquad \qquad \qquad \qquad  \qquad\\
\end{align}

###*平均と分散の性質

離散型確率変数と連続型確率変数の両方において、平均と分散は以下の性質を持ちます。

\begin{align}
&平均 E[X] の性質\\
\\
&(a) \; E[c] = c\\
&(b) \; E[X+c] = E[X]+c\\
&(c) \; E[cX] = cE[X]\\
&(d) \; E[X+Y] = E[X]+E[Y]\\
\\
\\
\\
&分散V[X]の性質\\
\\
&(a) \; V[c] = 0\\
&(b) \; V[X+c] = V[X]\\
&(c) \; V[cX] = c^2 V[X]\\

&\qquad \qquad  \qquad \qquad  \qquad \qquad  \qquad \qquad \qquad  \qquad \qquad \qquad \qquad  \qquad\\
\end{align}

4.Juliaで確率分布を扱う

Juliaで確率分布を扱うための、パッケージや関数は以下の記事にまとめていますので、ご参照ください。

Juliaで学ぶ確率変数(11) - まとめ - Qiita

今回は以上になります。

4
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?