確率の考え方を「ざっくり」説明する

  • 1
    Like
  • 0
    Comment
More than 1 year has passed since last update.

確率について,私がどう理解しているかを語ります.
私のやりたいことは「期待値の公式を人に紹介する」のようなことです.でも,そのためには,自分の中でいろいろ整理する必要があります.この文書を作りながら,自分の中で整理していきます.

確率の問題意識

数学では「日常的な概念等を数式であらわしたりする」ことができます.日常的な概念等とは,例えば「1mより2mの方が長い」というようなことです.

「明日は雨が降る確率がある」「サイコロを振って1の目が出る確率がある」というような文章を見て,直感的に何らかのイメージを持ちますよね.確率概念について数学的に考えてみましょう.

確率の出てくる文脈

「明日が雨の確率は0.5である」という風に言います.つまり,「確率」という単語は次の文脈で出てきます.

〇〇の確率は××である

「何の確率」

上記「文脈」において「〇〇」にあたるのは「雨が降る」「サイコロを振って1の目が出る」等の文章になります.〇〇には命題を当てはめます.つまり,〇〇の部分には真偽が確実に定まるような文を使います.

「確率は数値」

上記「文脈」において「××」にあたるのは「0.5」等の値になります.つまり,××には0以上1以下の実数を当てはめます.

注意点

確率について考えるとは不確実なことについて考えるということです.確率の話を理解する上で混乱しないためには,「何が確実なことで,何が不確実なことなのか」の区別を意識してください.

「明日が雨の確率は0.5である」という文について,次のようになります.

事柄 事柄の特徴
明日雨が降る 真偽が客観的に判定可能
明日雨の確率が0.5

命題についての補足

「命題」とは真偽がはっきり決まる文章でした.「述語」とは命題のようなものでした.

例えば,「明日雨が降る」は命題と考えられます.明日雨が降るかどうかは,定められた判定方法により確実に客観的に定まるからです.例えば,十分な詳細さで以下のような手順を決めておきます.

  1. 明日の12時に屋外に行く
  2. コップを持つ
  3. 10秒間待ち,コップに水が入っているかどうかを調べる,

まとめ

「確率」という単語は次のように使う.

(命題)の確率は(0以上1以下の値)である.

複数の確率の関係

直感的にわかる,確率の性質をもう少し考えてみましょう.

同時に起きない事象の確率

「サイコロを振って1の目が出る確率が0.1」かつ「サイコロを振って2の目が出る確率が0.1」ならば
「サイコロを振って1か2の目が出る確率が0.2」という風に考えられます.

これは,2つの命題($P$と$Q$とします)が両方とも真ではないとき,命題$P\vee Q$の確率はそれぞれの確率の和であるということです.

独立な事象の確率

「サイコロAを振って1の目が出る確率が0.2」かつ「サイコロBを振って1の目が出る確率が0.3」ならば
「サイコロAとBを振って両方1の目が出る確率が0.06」という風に考えられます.

これは,「サイコロAを振って1の目が出る」と「サイコロBを振って1の目が出る」が独立であると考えているということです.

命題論理の話からは外れると思うのですが,2つの命題の間に「独立である」という関係を考えることができます.

2つの命題($P$と$Q$とします)が独立なとき,命題$P\wedge Q$の確率はそれぞれの確率の積になります.

確率と数学をつなげる

「確率」の文脈等が,直感的にどうなっているか分析してきました.これを数学であらわしてみましょう.

命題と集合は対応しています(分出公理のイメージです).

「明日雨が降る」という命題に対応する集合を$A$として,$P$で確率を表すとすると,「$P$ of $A$ is 0.5」と読める,次のような書き方になります.

$$
P(A)=0.5
$$

命題に対応する集合$X$を集めた集合を$\sigma$という記号で表すとします.$P$は次のような写像です.

$$
P:\sigma \rightarrow [0,1]
$$

ただし$[0,1]=\{x\in {\mathbb R}\ |\ 0\le x \le 1\}$です.

以下,命題ではなく集合の言葉で説明していきます.「集合の確率」という表現が出てきて少し不自然に感じるかもしれません.

$A$と$B$が互いに素な集合のとき,和集合$A\cup B$の確率は$A$と$B$それぞれの確率の和になります.
つまり,以下のようになります.

$$
A\cap B = \phi
\Rightarrow
P(A\cup B)=P(A)+P(B)
$$

命題$P$と命題$Q$があり,それぞれに対応する集合を$A$と$B$とします.$P$と$Q$が独立のとき$X$と$Y$も独立といいます.
$A$と$B$が独立のとき$A,B,A\cap B$の確率の間に次の関係が成り立ちます.

$$
P(A\cap B) = P(A)P(B)
$$

問題意識のまとめ

確率についていくつかの事実を見てきました.これを数学にしていければ良いと思います.

確率変数の考え方

次に「確率変数」について考えてみましょう.「実数値」確率変数のみを考えます.

サイコロを振って,サイコロの落ちた座標値を調べることを考えてみましょう.この座標値を$X$とすると次のようなことが考えられます

  • $X=1$の確率は0.1
  • $X=2$の確率は0.2
  • $X=1$または$2$の確率は0.3

これらは「($X$についての命題)の確率は(数値)」の形をしています.「$X$についての命題」には$\mathbb R$の部分集合が対応します.そして確率には和の公式が成り立ちます・・・

確率変数とは$\mathbb R$上の確率測度である,と言えそうですね.

$X$が確率変数であるとはこのような状況のことです.

確率変数の用語

上記のもやっとした説明からもわかるように,確率変数をそのままとらえることは難しいのかもしれません.そこで「確率密度関数」や「分布関数」というものを使います.

実数値確率変数$X$の分布関数$F(x)$は次を満たす関数です.

$$
F(x)=P(\{X\le x\})
$$

実数値確率変数$X$の確率密度関数$f(x)$は実数の集合$A$に対して次を満たす関数です.

$$
P(A)=\int_A f(x)dx
$$

分布関数と密度関数の間に次のことが成り立ちます.

$$
F'(x)=f(x)
$$

(参考)標本空間

標本空間という言葉を聞いたことがありませんか?少し説明します.

未来に起こることを全て考えるとどうなるでしょうか.
ある時点,例えば100年後という時点を指定して,「今から100年後までの間に起きること」の全ての可能性を挙げてみましょう.

「サイコロを振ったら1の目が出て,次に振ったら2の目が出て,明日は雨が降って・・・」というのが1つ目の可能性,「サイコロを振ったら2の目が出て,次に振ったら3の目が出て,明日は晴れで・・・」,というのが2つ目の可能性です.

未来に起こること全てを考えると,可能性がたくさんあることがわかります.このたくさんの可能性が入った集合を標本空間と言います.標本空間には無数の元がありますが,「サイコロを振った目の数に注目する!」といえば6つに分かれて扱いやすくなります.
有り得ない可能性は標本空間に入っていません.「サイコロを振って2と3の目が出て,・・・」というのは有り得ないので最初から標本空間に入っていません.有り得る全ての結果を集めたのが標本空間です.

確率変数の和や平均

確率変数の和について考えます.標本空間の元を1つ取り出すと,それは100年後,確定した出来事の情報を持っています.その状態で「サイコロの出た目と明日の天気に注目する」というようなことができます.

数があれば計算することができます.例えば確率変数$X$と$Y$の和を計算することができます.

このあたりまでをふまえて確率変数を定式化していくと次のようになります.

まず,確率変数は標本空間$\Omega$から$\mathbb R$への写像です.$X$と$Y$が確率変数なら$X+Y$という確率変数を$(X+Y)(\omega)=X(\omega)+Y(\omega)$で定義します.$h:{\mathbb R}\rightarrow{\mathbb R}$に対して$h(X)$を$h(X)(\omega)=h(X(\omega))$で定義します.

$\Omega$には確率測度$\mu$が決まっていると考えられるので,$X$の平均$E(X)$を次で定めます.

$$
E(X)=\int_\Omega X(\omega)d\mu
$$

ここから$E(X+Y)=E(X)+E(Y)$等が証明できます.

確率変数の分散を$V(X)=E((X-E(X))^2)$と定めます.

確率変数の平均や分散を計算するための公式

上記の式を変形します.$X$を確率変数,$f(x)$をその密度関数とします.次のことが成り立ちます.

$$
E(X)=\int_{\mathbb R}xf(x)dx, \quad
V(X)=\int_{\mathbb R}(x-E(X))^2f(x)dx
$$

確率変数の和の密度関数

$X$と$Y$を独立な確率変数とし,密度関数を$f_X(x)$および$f_Y(y)$とします.$X+Y$の密度関数$f_{X+Y}(z)$を求めてみましょう.

$X+Y$の分布関数を$F_{X+Y}(z)$としましょう.$X$と$Y$は独立なので

$$
F_{X+Y}(z)=\int_{X+Y\le z}f_X(x)f_Y(y)dxdy=\int_{-\infty}^\infty dx
\int_{-\infty}^{z-x}dy f_X(x)f_Y(y)
$$

となり

$$
f_{X+Y}(z)=F_{X+Y}'(z)
=\int_{-\infty}^\infty f_X(x)f_Y(z-x)dx
$$

が得られました.