条件付き分布の特徴量の例
例:勉強時間とテスト結果
-
(X):勉強したかどうか
- 0:勉強していない
- 1:勉強した
-
(Y):テスト結果
- 0:不合格
- 1:合格
条件付き分布
例えば
- 勉強していない人:合格確率 0.2
- 勉強した人:合格確率 0.8
これは
X=0 のときの Y の分布
→ 合格確率 0.2
X=1 のときの Y の分布
→ 合格確率 0.8
つまり
条件によって分布が変わる
条件付き期待値
$$
E(Y \mid X=0)=0.2
$$
$$
E(Y \mid X=1)=0.8
$$
意味
- 勉強していない → 合格率 20%
- 勉強した → 合格率 80%
つまり
条件付き期待値
= 条件ごとの平均
条件付き期待値は確率変数
$$
E(Y \mid X)
=\begin{cases}
0.2 & (X=0)
0.8 & (X=1)
\end{cases}
$$
これは
Xによって値が変わる関数
なので、確率変数になります。
期待値のくり返しの法則
全体の合格率は
$$
E(Y)=E[E(Y \mid X)]
$$
例えば
- (P(X=0)=0.5)
- (P(X=1)=0.5)
なら
$$
E(Y)=0.5\times0.2 + 0.5\times0.8 = 0.5
$$
意味
全体の平均
= 条件ごとの平均の平均
条件付き分散
例えば
- 勉強していない人:結果がバラバラ(ばらつき大)
- 勉強した人:ほぼ合格(ばらつき小)
このとき
$$
V(Y \mid X=0) > V(Y \mid X=1)
$$
意味
条件付き分散
= 条件ごとのばらつき
全分散の法則
$$
V(Y)=E[V(Y \mid X)] + V(E(Y \mid X))
$$
これは
全体のばらつき
├─ 条件ごとの中のばらつき
└─ 条件ごとの平均の違い
まとめ
条件付き分布
↓
条件ごとに分布を切る
↓
条件付き期待値
→ 条件ごとの平均
↓
条件付き分散
→ 条件ごとのばらつき