以下の統計検定2級対策動画で用いられているスライドの一部です。
はじめに:具体例から学ぼう
統計学の重要な概念である 確率変数 と 確率分布 。
これらの用語は、まず具体的な問題を通じて感覚を掴むのが一番の近道です。
- ステップ1: 具体的な問題(玉の取り出し、バスの待ち時間)
- ステップ2: 例を通して用語の意味を理解する
- ステップ3: 最後に全体を一般化して特徴を整理
この流れで、一つずつ見ていきましょう。
【ステップ1】 具体例①:袋から玉を取り出す
まずは、値が とびとび になるケースを考えてみます。
赤玉4個と白玉6個が入った袋の中から、同時に2個の玉を取り出す試行を考えます。
このとき、取り出された 赤玉の個数 に注目します。
「確率変数」とは?
この「赤玉の個数」のように、試行の結果によって値が確率的に決まる変数を 確率変数 と呼びます。
- 確率変数は $X$ や $Y$ のような大文字で表します。
- 確率変数が実際にとった値(実現値)は $x$ や $y$ のような小文字で表します。
今回の例では、赤玉の個数を確率変数 $X$ とすると、$X$ がとりうる値 $x$ は 0, 1, 2 のいずれかです。
確率を計算してみよう
それでは、$X$ がそれぞれの値をとる確率 $P(X=x)$ を計算してみましょう。
準備:全体の場合の数
10個の玉から2個を取り出す組み合わせなので、
$$
_{10}C_2 = \frac{10 \times 9}{2 \times 1} = 45 \text{通り}
$$
$X=0$ (赤玉0個 , 白玉2個) の確率
- 6個の白玉から2個を取り出す組み合わせは $_6C_2 = 15$ 通り。
- したがって、確率は…
$$
P(X=0) = \frac{6C_2}{{10}C_2} = \frac{15}{45} = \frac{1}{3}
$$
$X=1$ と $X=2$ の確率
-
$X=1$ (赤玉1個, 白玉1個) の場合
- $_4C_1 \times _6C_1 = 4 \times 6 = 24$ 通り
$$
P(X=1) = \frac{24}{45} = \frac{8}{15}
$$
- $_4C_1 \times _6C_1 = 4 \times 6 = 24$ 通り
-
$X=2$ (赤玉2個) の場合
- $_4C_2 = 6$ 通り
$$
P(X=2) = \frac{6}{45} = \frac{2}{15}
$$
- $_4C_2 = 6$ 通り
「確率分布」とは?
このように、確率変数 $X$ がとる各値 $x$ と、その確率 $P(X=x)$ の対応関係を 確率分布 と呼びます。
この対応関係は、 表 にまとめると非常に分かりやすくなります。
確率分布表
| 赤玉の個数 $x$ | 0 | 1 | 2 | 合計 |
|---|---|---|---|---|
| 確率 $P(X=x)$ | $\frac{1}{3}$ | $\frac{8}{15}$ | $\frac{2}{15}$ | 1 |
注目すべきは、 すべての確率を合計すると必ず1になる ことです。
$$
\frac{5}{15} + \frac{8}{15} + \frac{2}{15} = \frac{15}{15} = 1
$$
ここまでのまとめ:とびとびの値の場合
-
離散型確率変数
- 赤玉の個数 $X$ のように、とりうる値が $0, 1, 2$ のように とびとび になっている変数のこと。
-
確率質量関数
- 「$X$ が特定の値 $x$ をとる確率 $P(X=x)$」を表す関数のこと。
【ステップ1】 具体例②:バスを待つ
次に、値が 連続的 になるケースを見てみましょう。
あるバス停では、バスの到着間隔が10分です。
利用者がバス停に着いてから、次のバスが到着するまでの 待ち時間 を考えます。
「連続型確率変数」とは?
この「待ち時間 $X$」は、0分から10分の間の 任意の実数値 をとる可能性があります (例: 3.5分、8.125分など)。
このように、値がとびとびではなく、ある区間内の値をとる変数を 連続型確率変数 と呼びます。
- 他の例:身長、体重、気温など
連続型の場合の「確率」の考え方
連続型の場合、$X=5$ のように「待ち時間がピッタリ5分」になる確率は、限りなく0に近いと考え、 $P(X=x) = 0$ と特徴されます。
では、どうやって確率を表すのか?
確率密度関数 というグラフを使い、 面積 で確率を表現します。
「確率密度関数」とは?
今回の例では、待ち時間 $X$ の確率密度関数 $f(x)$ が以下で与えられるとします。
$$
f(x) =
\begin{cases}
\frac{1}{10} & (0 \le x \le 10) \
0 & (\text{それ以外})
\end{cases}
$$
これは「0分から10分の間では、どの待ち時間も同じように起こりやすい」ことを意味します。
確率密度関数のグラフ
import matplotlib.pyplot as plt
import numpy as np
# Data for the uniform distribution
x = np.linspace(-2, 12, 500)
y = np.where((x >= 0) & (x <= 10), 1/10, 0)
# Create the plot
plt.figure(figsize=(8, 5))
plt.plot(x, y, label='f(x)')
# Fill the area for P(2 <= X <= 5)
x_fill = np.linspace(2, 5, 100)
y_fill = np.full_like(x_fill, 1/10)
plt.fill_between(x_fill, y_fill, color='skyblue', alpha=0.5, label='P(2 <= X <= 5)')
# Add text for the area
plt.text(3.5, 0.05, 'Area = 3/10', horizontalalignment='center')
# Add titles and labels
plt.title('Probability Density Function (Uniform Distribution)')
plt.xlabel('Waiting Time X (minutes)')
plt.ylabel('Probability Density f(x)')
plt.ylim(0, 0.15)
plt.grid(True)
plt.legend()
# Show the plot
plt.show()
確率を計算してみよう
問題: 待ち時間が 2分から5分の間 である確率 $P(2 \le X \le 5)$ を求めてください。
これは、確率密度関数のグラフにおいて、$x=2$ から $x=5$ までの区間の 面積 を求めることに相当します。
数学的には、 積分 を使って計算します。
確率の計算(積分)
$$
P(2 \le X \le 5) = \int_2^5 f(x)dx = \int_2^5 \frac{1}{10} dx
$$
これを計算すると…
$$
\left[ \frac{1}{10}x \right]_2^5 = \frac{1}{10}(5) - \frac{1}{10}(2) = \frac{5-2}{10} = \frac{3}{10}
$$
確率は 0.3 となります。
これは、高さ $\frac{1}{10}$、横幅 $5-2=3$ の長方形の面積と同じです。
【ステップ3】 一般化と特徴
ここまでの具体例を踏まえて、用語を確認し直しましょう。
特徴のまとめ (1/3)
-
確率変数
- 試行の結果によって、とりうる値が確率的に決まる変数。
- 大文字 $X$ で表し、実現値は小文字 $x$ で表す。
-
確率分布
- 確率変数 $X$ がとる値 $x$ と、その確率との対応関係。
- 表、数式、グラフなどで表現される。
特徴のまとめ (2/3)
-
離散型確率変数
- 特徴: とりうる値が とびとび の変数 (例: サイコロの目)。
- 確率: 確率質量関数 $P(X=x)$ で表す。
-
性質: すべての確率の 合計 は 1 になる。
$$
\sum_{i} P(X=x_i) = 1
$$
特徴のまとめ (3/3)
-
連続型確率変数
- 特徴: とりうる値が 連続的 な変数 (例: 身長、時間)。
-
確率: 確率密度関数 $f(x)$ の 面積(積分) で表す。
$$
P(a \le X \le b) = \int_a^b f(x)dx
$$ -
性質: 全範囲の 面積(積分値) は 1 になる。
$$
\int_{-\infty}^{\infty} f(x)dx = 1
$$
さいごに
本日のまとめです。
- 確率変数 : 試行の結果によって値が決まる変数。
- 確率分布 : 確率変数がとる値と、その確率の対応関係。
- 離散型 : 値がとびとび。確率は 確率質量関数 で表し、総和は1。
- 連続型 : 値が連続的。確率は 確率密度関数 の面積で表し、全面積は1。
これらの概念は、あらゆる統計モデルの基礎となります。
まずはこの違いをしっかり区別できるようになりましょう。
