確率変数がわからない。何がわからないかからわからない。
確率密度関数もどうしてそれが出てくるのか、重要なのかわからない。
でもサイコロをふって出る目とその確率はなんとなくわかる。
サイコロの例から理解を広げて、確率変数をわかったつもりになる記事。
数学の集合の記法出てきます。測度論から厳密に理解しようとすると余計にモヤモヤするので、Wikipediaと集合の概念を使う程度のふわっとアプローチ。
Wikipediaから試行
の記事を引用すると
確率論において、試行(しこう、英: trial, experiment)とは、起こりうる結果がいくつかあり、そのどれか1つだけが偶然で起こる流れのことである。試行の結果全体の集合は標本空間(全事象)と呼ばれる。
(中略)
試行の結果のいくつかからなる集合で、起こる割合が決まっていると考えられるものを事象という。事象に対してそれの起こる割合を確率という。
またWikipediaから根元事象
の記事を引用すると
確率論において、根元事象(こんげんじしょう、英語: elementary event)とは、1つだけの結果からなる事象である。
原子事象(げんしじしょう、英語: atomic event)ともいう。集合論の観点では、根元事象は単集合である。
これを「サイコロをふって出る目」の例を添えて書き出してみると
用語 | 定義 | 例 |
---|---|---|
試行 | 結果を1つだけ引き起こす流れ | サイコロを1回ふる |
結果 | (これは言葉のまま受け取る) | ⚂が出る |
事象 | 結果のいくつかからなる集合で、 起こる割合が決まっているもの1 |
{偶数の目が出る} 起こる割合は1/2 |
確率 | 事象に対してそれの起こる割合 (言葉の言い換え) |
{偶数の目が出る}の確率は1/2 |
全事象 | 結果の全体の集合 | {⚀〜⚅のどれかが出る} 起こる割合(確率)は1 |
根元事象 | 1つだけの結果からなる事象 | {⚂が出る} 起こる割合(確率)は1/6 |
ここでポイントなのが、事象は「結果の集まり(集合)」であって、集合に対して確率という数値が定まっているところ。集合の大きさが定まっているような感じ。集合の要素(結果)に対して大きさが定まっているわけではない。
次に確率変数
のwikipediaの記事を引用すると
確率変数(かくりつへんすう、英: random variable, aleatory variable, stochastic variable)とは、統計学の確率論において、起こりうることがらに割り当てている値(ふつうは実数や整数)を取る変数。
各事象は確率をもち、その比重に応じて確率変数はランダムに値をとる。
起こりうることがらとは結果のことなので、結果に値を割り当てようということ2。サイコロの例で結果を並べて、数値(整数)を割り当ててみると
結果 | 割り当てる値 |
---|---|
⚀が出る | 1 |
⚁が出る | 2 |
⚂が出る | 3 |
⚃が出る | 4 |
⚄が出る | 5 |
⚅が出る | 6 |
例えばこんな割り当て方をした場合、確率変数Xとは1〜6のどれか値を取る変数を意味するということ。
さらに確率変数はランダムに値をとるということで、確率は今整数のほうじゃなくてサイコロの世界にある話だから
結果 | 割り当てる値 | 値を取る割合 |
---|---|---|
⚀が出る | 1 | 値1を取るのは{⚀が出る}確率=1/6の割合 |
⚁が出る | 2 | 値2を取るのは{⚁が出る}確率=1/6の割合 |
⚂が出る | 3 | 値3を取るのは{⚂が出る}確率=1/6の割合 |
⚃が出る | 4 | 値4を取るのは{⚃が出る}確率=1/6の割合 |
⚄が出る | 5 | 値5を取るのは{⚄が出る}確率=1/6の割合 |
⚅が出る | 6 | 値6を取るのは{⚅が出る}確率=1/6の割合 |
1〜6のどの値を取るかは上記のように(元の世界の確率に応じて)ランダムということなので、英語名の通りランダム変数というほうがいい気がする。(結論出た)
この例の確率変数(ランダム変数)を使うとサイコロの世界の話を、整数の話におきかえることができている。毎回いちいち「⚀が出る」などと書かなくてよくなる。これが確率変数を考えるメリットということね。
ちなみに⚀は1、⚁は2に割り当てなくても確率変数の定義上は問題ない。例えばこんな割り当ての仕方をするのもあり。
結果 | 割り当てる値 | 値を取る割合 |
---|---|---|
⚀が出る | 0 | 値0を取るのは{⚀~⚄のどれかが出る}確率=5/6の割合 |
⚁が出る | 0 | 値0を取るのは{⚀~⚄のどれかが出る}確率=5/6の割合 |
⚂が出る | 0 | 値0を取るのは{⚀~⚄のどれかが出る}確率=5/6の割合 |
⚃が出る | 0 | 値0を取るのは{⚀~⚄のどれかが出る}確率=5/6の割合 |
⚄が出る | 0 | 値0を取るのは{⚀~⚄のどれかが出る}確率=5/6の割合 |
⚅が出る | 1 | 値0を取るのは{⚅が出る}確率=1/6の割合 |
この場合、確率変数Xとは1または0の値をランダムに取る変数となる。
ずいぶんと元のサイコロの世界の情報が失われてしまっているので、この例から確率変数は異なるものを異なる値に割り当てる(単射性)制約があったほうがよさそう。
なんとなくわかってきた。モヤモヤしてたのは元の世界の情報がなんとなく失われていないかという不安によるものだった。次は確率変数の和や積、連続の確率変数と確率密度関数を理解していきたいと思う。