- 離散確率変数の同時分布の可視化
- 同時分布とは
- Pythonで離散確率変数の同時分布を可視化
- まとめ
統計学の学習:離散確率変数の同時分布を可視化
今回は離散確率変数の同時分布の可視化を行なってみたいと思います。
所要時間は15分ほどとなっています。
それでは、さっそく始めていきましょう!
同時分布とは
同時分布(Joint Distribution)は、複数の確率変数(例えば、X と Y)が同時にどのような値を取るか、その確率的挙動を示すものです。単一の確率変数の分布が、その変数のとりうる値とその確率(または確率密度)を記述するのに対し、同時分布は「X がこの値を取るとき、Y がこの値を取る」というペアの確率(または確率密度)を記述します。
同時確率質量関数 (Joint PMF) - 離散確率変数の場合
離散確率変数 X と Y の同時分布は、同時確率質量関数 (Joint Probability Mass Function, Joint PMF) P(X=x, Y=y) で表されます。これは、「確率変数 X が特定の x の値をとり、同時に確率変数 Y が特定の y の値をとる確率」を示します。
例:2つのサイコロを振ったときの出目、ある店舗での男性客と女性客が購入した商品カテゴリの組み合わせなど。
同時確率密度関数 (Joint PDF) - 連続確率変数の場合
連続確率変数 X と Y の同時分布は、同時確率密度関数 (Joint Probability Density Function, Joint PDF) f(x, y) で表されます。これは、点 (x, y) の周りの微小な領域における確率密度を示します。特定の点での確率が0になるため、P(X=x, Y=y) のような直接的な確率は定義されません。代わりに、特定の範囲における確率を積分で計算します。
例:ある地域の気温と湿度、商品の高さと重さ。
なぜ同時分布を理解することが重要なのか?
1. 変数間の関係性の理解: 複数の変数が互いにどのように影響し合っているか、あるいは独立しているかを分析する上で不可欠です。
2. 周辺分布の導出: 同時分布が分かれば、各変数が単独でどのような分布をするか(周辺分布, Marginal Distribution)を導き出すことができます。
3. 条件付き分布の導出: ある変数が特定の値を取るという条件の下で、他の変数がどのような分布をするか(条件付き分布, Conditional Distribution)を導き出すことができます。
4. 共分散と相関: 複数の変数間の線形な関係の強さを示す共分散や相関係数は、同時分布から計算されます。
それでは、具体的な例として、離散確率変数の同時分布をグラフで可視化してみましょう。
Pythonで離散確率変数の同時分布を可視化
結果と解釈 (離散同時分布)
ヒートマップと3D棒グラフ
上記のヒートマップと3D棒グラフは、性別(男性、女性)と購入カテゴリ(カテゴリA、カテゴリB)という2つの離散確率変数が同時に発生する確率を示しています。
例えば、「男性」かつ「カテゴリA」を購入する確率は0.15であることが視覚的にわかります。
各セル(棒の高さ)がその組み合わせの同時確率を示しており、すべてのセルの確率を合計すると1になります。
周辺分布
同時分布から、各変数の単独の確率分布である「周辺分布」を導出しました。
性別の周辺確率: 男性である確率 (0.15 + 0.25 = 0.40) と女性である確率 (0.30 + 0.30 = 0.60) を示します。これは、顧客全体の中で男性が40%、女性が60%であることを意味します。
商品カテゴリの周辺確率: カテゴリAが購入される確率 (0.15 + 0.30 = 0.45) とカテゴリBが購入される確率 (0.25 + 0.30 = 0.55) を示します。これは、顧客全体でカテゴリAが45%、カテゴリBが55%購入されることを意味します。
これらの周辺分布は、同時分布の行合計や列合計として計算され、それぞれの変数が他の変数に関係なくどのような確率で発生するかを示します。
この例から、同時分布がいかにして複数の変数間の相互作用を捉え、そこから個々の変数の情報も引き出せるかが理解できます。


