確率密度
・確率密度関数が描く面積が確率になる。
・確率密度関数が描く全面積は1になる。
前回、下記の分布を表す確率密度関数のXが0から1の間だと1を返して、それ以外は0を返していました。
では、この"1"は何を表しているのか考えてみましょう。
離散型の場合は、x=1のとき、y軸が確率になってました。
連続型の場合は、面積が確率になります。
ex) ランダムに選んだ成人男性一人の身長
下記だと、20%の確率だとわかるのです。
前回描画した、確率分布でy軸はそれほど重要でなく、面積が確率になっていることを覚えてください。
累積分布関数(CDF: Cumulative Distribution Function)
・確率密度関数を負の無限大からある値(x)まで確率を積み上げた値を返す関数
つまり、累積分布関数を見れば、その値(x軸)までの確率がわかります。
Pythonで実践
正規分布の確率密度関数と累積密度関数を描画する
・PDF: stats.norm.pdf(x)
・CDF: stats.norm.cdf(x)
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
# x軸を生成
x = np.linspace(-3, 3, 100)
# y軸を生成(正規分布の確率密度関数)
y = stats.norm.pdf(x)
# 描画
plt.plot(x, y)
# y軸を生成(正規分布の累積密度関数)
cdf_y = stats.norm.cdf(x)
# 描画
plt.plot(x, cdf_y)
では、下記のように右側の面積を求めたい場合はどう考えれば良いでしょうか。
確率密度関数のグラフを見ると、
確率は(全面積を足し合わせると)で"1"であるので、1-累積分布関数(CDF)であることがわかります。
そして、右側の面積を求めるメソッドが用意されているので紹介します。
右側の面積(1-累積分布関数(CDF))を求める
・ SF: stats.norm.sf(x) sf:Survival Function
# y軸を生成(1-CDF)
sf = stats.norm.sf(x)
# 描画
plt.plot(x, sf)
次回は正規分布について、詳しくみていきましょう。