この記事について
私自身昨年に入りデータサイエンスを業務でかじり、統計学検定2級を勉強しています。しかし、確率密度を丸暗記で使い方を覚えていたため応用が効かずに困ってしまいました。
というわけで、今回は数式を出来るだけ利用せず整理して行きたいと思います。
確率とは
確率は、起こりうる出来事がどの程度「確からしい」のかを0から1の数値で表したものです。
分かりづらいですね。。。「確からしい」とは何なんでしょうね。
要は「出来事が発生しやすいかを0~1の中で1を最大値として表現した値」になります。
確率変数
これからの話でかなり大切な確率変数について復習しましょう。
確率変数をググると以下のように書かれています。
いろいろな値をとりうる変数Xがあって、それぞれの値をとる確率が決まっているときXを確率変数という。
サイコロを振る例で考えると以下となります。
いろいろな値=サイコロの出目(1~6) -> 変数X
それぞれの値を取る確率=1/6 -> 決まっている
よってサイコロの出目=確率変数となります。
ここまではイメージがしやすいと思います。
実は確率変数には2種類存在するのでちょっと見て行きましょう。
2つの確率変数
確率変数は「離散型確率変数」と「連続確率変数」の2つに分けることが出来ます。
一言で述べると以下のような説明になります。
- 離散型確率変数
- とりうる値に対して確率が与えられている変数
- 連続確率変数
- とりうる値が連続的でそれに対して確率が与えられる変数
「離散型確率変数」は先ほどのサイコロのケースが当てはまります。また、イメージもしやすいと思います。しかし、今回の主題は「連続確率変数」です。
連続確率変数
取りうる値が連続的とはどのようなものでしょうか?
以下の分布は文部科学省が公表しているH27における17歳の身長データの分布です。
x軸を見てみると目盛りが150〜190まで書いてあるだけで細かい区切りはありません。
この意味は、どこからどこまでが170でどこからが171なのかを決めることが出来ないという考えにあります。
例えば171とは170.9からでしょうか?
それとも170.99999999からでしょうか?
厳密に少数第n位を見て9だったら171に切り上げるなどのルールは存在しません。よって、目盛りの境界が存在しない形にするしかないのです。
連続確率変数の確率
連続確率変数の確率はどのように求めるのでしょうか?
答えは「確率密度」を使います。確率密度は「確率」という名前が付いていますが、__範囲を指定して初めて確率を求めることが出来ます。__
値が0〜1の範囲に入る確率は0.5となるといった形です。
離散型確率変数の時のように3を取るだとか、一点だけをピンポイントで指定して確率を求めることは出来ず、一点だけの確率を求めた場合は確率は0となりますので注意してください。
確率密度
もうちょっと具体的に確率密度を見て行きたいと思います。
確率密度は以下の身長の分布でいうと__青い線が確率密度となります。__
実際に使用する際には、身長測定をした結果が160cm~170cmの範囲に入る確率を求めます。これは範囲指定した青い線の内側の面積を求めることになります。(以下の斜線を引いた部分の面積です。)
よって、範囲指定した面積=該当する範囲の中に入る確率となります。
なぜ面積=確率なの?
そういうもんと思っていても、ここが私は腑に落ちない部分でした。
これは「ヒストグラム」にして分布を見ていくことで私は理解できました。
まずヒストグラムと連続確率分布について確認して行きましょう。
先ほどの身長の分布をヒストグラムにしたものを用意しました。
ヒストグラムの階級を「13」「200」「1000」として徐々に増やして行きましょう。
鋭い人はピンと来たのではないでしょうか?
そうです、階級を増やすと徐々に連続確率分布に似てくるのです。
ということは、階級を多くすると近似出来るということが言えます。
よって、ヒストグラムの考え方が連続確率分布で利用出来るということです。
ヒストグラム中の分布の割合を求める
以下の分布は140~200cmの範囲で5cmずつを階級幅としたものです。
縦軸は相対度数になります。
この分布で160cm~170cmの人の割合をどのように求めれば良いでしょうか?
答えは__「階級ごとの相対度数の総和」__を求めるです。
160~165cmの割合が「0.115」、165~170cmが「0.2725」だとすると、160cm~170cmの割合は「0.115+0.2725=0.3875」となります。
よって、身長測定をした時に約38%の確率で160〜170cmの範囲に入ると言うことができます。
おや?「範囲に入る」というの言葉どこかでありましたよね?
そうです。連続確率分布と同じです。
ヒストグラムの割合(確率)の求め方は、分布上の各階級の相対度数の面積を足し合わせているとも言えます。よって、面積を求めること=確率を求めるということができます。
最後に
確率密度について少しは腑に落ちたでしょうか?
確率密度とヒストグラムの関係がしっくり来ましたか?
これからも気づきを投稿できたらと思います。
最後まで読んでくれてありがとうございました。