はじめに
Rを学びたいStep17です。今回は離散型確率分布と連続型確率分布の違いを学んでいきます。
そもそも確率分布とは?
確率分布とは確率変数が取りうる値と、それに対応する確率の関係を表したものです。
もっと簡単に言うと、「どんな値がどれくらいの確率で起こるか」をまとめたものです。
聞いてみると、簡単な話ですよね。では、なぜ離散型確率分布と連続型確率分布を分けているのか?それは図や数式での表し方が異なるからです!!
離散型確率分布とは
離散型確率分布は、確率変数が「数えられる値」をとる場合の分布のことです。
わかりやすいやつだと、サイコロです。1,2...6で数が数えられる分布の場合、下記のような表に表せます。
さいころの出る目 | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
確率 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 | 1/6 |
→何がどれくらいの確率で表示されるか、一目瞭然ですね!
連続型確率分布とは
連続型確率分布は、確率変数が「連続的な値」を取りうる場合の確率分布です。取りうる値が無限に多い場合に使用されます。例えば、身長や体重、気温など、小数点以下の細かい値を含むものがこれに該当します。
離散型の確率分布は取りうる値が決まっているので、表に落とし込む事ができます。
ただ、身長や体重などは数値が連続的に続き切れ目がないので、この時の場合の確率は何というのができないです。
そこで、グラフでの範囲の表示や数式で表現します。
離散確率分布のサイコロ
# サイコロの目
dice_faces <- 1:6
# 各目が出る確率 (均等)
probabilities <- rep(1/6, 6)
# 表を作成
dice_table <- data.frame(
サイコロの目 = dice_faces,
確率 = probabilities
)
# 表を表示
print(dice_table)
~/develop/R/r_study/kakuritu (main)$ Rscript kakuritu.r (base)
サイコロの目 確率
1 1 0.1666667
2 2 0.1666667
3 3 0.1666667
4 4 0.1666667
5 5 0.1666667
6 6 0.1666667
連続型確率分布
# 正規分布のパラメータを設定
mean_height <- 170 # 平均身長 (cm)
sd_height <- 5 # 標準偏差 (cm)
# 1. 確率密度関数 (PDF) を計算
x <- seq(150, 190, by = 0.1) # 身長の範囲 (連続値)
y <- dnorm(x, mean = mean_height, sd = sd_height) # 確率密度
# 確率密度関数をプロット
plot(
x, y, type = "l", col = "blue", lwd = 2,
main = "Probability Density Function (Normal Distribution)", # タイトル (英語)
xlab = "Height (cm)", # x軸ラベル (英語)
ylab = "Density" # y軸ラベル (英語)
)