以下は、上記の内容をわかりやすく日本語でまとめた記事です。
確率分布と条件付き確率の活用
1. 確率分布の基礎
確率分布とは、ランダム変数が取る可能性のある各値に対する確率を示したものです。例えば、「フライト」というランダム変数が以下のような確率分布を持つとしましょう:
- フライトが時間通り(on time)である確率:60%(0.6)
- 遅延する(delayed)確率:30%(0.3)
- キャンセルされる(canceled)確率:10%(0.1)
これらの確率を合計すると1(100%)になります。これは確率論の基本ルールで、すべての可能な世界の確率を合計すると必ず1になるという原則に基づいています。
確率分布は、より簡潔にベクトル形式で表現することも可能です。例えば、このフライトの確率分布は次のように記述されます:
P(flight) = <0.6, 0.3, 0.1>
この表記では、値の順序が「時間通り」「遅延」「キャンセル」であることを知っていれば、それぞれの確率を簡単に把握できます。
2. 独立性と条件付き確率
確率の独立性は、「あるイベントが他のイベントに影響を与えない」ことを意味します。例えば、赤いサイコロを振った結果と青いサイコロを振った結果は互いに独立です。赤いサイコロが「6」を出しても、青いサイコロの結果には何の影響もありません。
一方で、独立ではない場合もあります。例えば、「朝が曇り(cloudy)」と「午後に雨が降る(rain)」といったイベントは関連している可能性があります。曇りの朝であれば、午後に雨が降る確率が高まる場合があるからです。
数学的には、独立性を次のように表現します:
- イベントAとBが独立であれば、
つまり、AとBが同時に発生する確率は、Aの確率とBの確率を掛けた値になります。
P(A ∩ B) = P(A) × P(B)
条件付き確率の計算
条件付き確率は、既知の情報を基に他の確率を計算する手法です。次の公式で計算されます:
P(A | B) = P(A ∩ B) / P(B)
ここで、P(A | B)は「Bが真であるときのAの確率」を表します。
3. ベイズの定理
ベイズの定理は、ある条件付き確率を逆方向の条件付き確率から計算するための重要な公式です。公式は次のように表されます:
P(B | A) = [P(A | B) × P(B)] / P(A)
例えば、「朝曇り(cloudy)であった場合に午後雨(rain)が降る確率」を計算したいとします。この状況で、以下のデータがあると仮定します:
- 午後雨が降った日の80%は朝が曇りだった(P(cloudy | rain) = 0.8)。
- 全体の40%の日が曇り(P(cloudy) = 0.4)。
- 全体の10%の日が雨(P(rain) = 0.1)。
ベイズの定理を使って、P(rain | cloudy) を計算します:
P(rain | cloudy) = [P(cloudy | rain) × P(rain)] / P(cloudy)
= (0.8 × 0.1) / 0.4
= 0.2
つまり、朝が曇りであれば午後雨が降る確率は20%と結論付けられます。
4. 同時確率分布(Joint Probability Distribution)
同時確率分布は、複数のランダム変数が取りうるすべての組み合わせの確率を示します。例えば、「朝曇り」と「午後雨」の関係を次の表で表すことができます:
朝曇り(Cloudy) | 午後雨(Rain) | 確率(Probability) |
---|---|---|
曇りかつ雨 | True | 0.08 |
曇りで雨でない | False | 0.32 |
曇りでなく雨 | True | 0.02 |
曇りでなく雨でない | False | 0.58 |
この表に基づいて、例えば「朝曇りかつ午後雨」の確率P(cloudy ∩ rain)は0.08と計算できます。
まとめ
確率分布、条件付き確率、そしてベイズの定理は、AIやデータ分析において非常に重要な概念です。これらを組み合わせることで、データから新しい知見を得たり、未来のイベントの発生確率を推測することが可能になります。次回は、不確実性の扱い方をさらに掘り下げていきます。