0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

確率変数と確率分布を理解する_統計検定2級対策

Posted at

以下の統計検定2級対策動画で用いられているスライドの一部です。

はじめに:具体例から学ぼう

統計学の重要な概念である 確率変数確率分布
これらの用語は、まず具体的な問題を通じて感覚を掴むのが一番の近道です。

  • ステップ1: 具体的な問題(玉の取り出し、バスの待ち時間)
  • ステップ2: 例を通して用語の意味を理解する
  • ステップ3: 最後に全体を一般化して特徴を整理

この流れで、一つずつ見ていきましょう。


【ステップ1】 具体例①:袋から玉を取り出す

まずは、値が とびとび になるケースを考えてみます。

赤玉4個と白玉6個が入った袋の中から、同時に2個の玉を取り出す試行を考えます。

このとき、取り出された 赤玉の個数 に注目します。


「確率変数」とは?

この「赤玉の個数」のように、試行の結果によって値が確率的に決まる変数を 確率変数 と呼びます。

  • 確率変数は $X$ や $Y$ のような大文字で表します。
  • 確率変数が実際にとった値(実現値)は $x$ や $y$ のような小文字で表します。

今回の例では、赤玉の個数を確率変数 $X$ とすると、$X$ がとりうる値 $x$ は 0, 1, 2 のいずれかです。


確率を計算してみよう

それでは、$X$ がそれぞれの値をとる確率 $P(X=x)$ を計算してみましょう。

準備:全体の場合の数
10個の玉から2個を取り出す組み合わせなので、
$$
_{10}C_2 = \frac{10 \times 9}{2 \times 1} = 45 \text{通り}
$$


$X=0$ (赤玉0個 , 白玉2個) の確率

  • 6個の白玉から2個を取り出す組み合わせは $_6C_2 = 15$ 通り。
  • したがって、確率は…
    $$
    P(X=0) = \frac{6C_2}{{10}C_2} = \frac{15}{45} = \frac{1}{3}
    $$

$X=1$ と $X=2$ の確率

  • $X=1$ (赤玉1個, 白玉1個) の場合

    • $_4C_1 \times _6C_1 = 4 \times 6 = 24$ 通り
      $$
      P(X=1) = \frac{24}{45} = \frac{8}{15}
      $$
  • $X=2$ (赤玉2個) の場合

    • $_4C_2 = 6$ 通り
      $$
      P(X=2) = \frac{6}{45} = \frac{2}{15}
      $$

「確率分布」とは?

このように、確率変数 $X$ がとる各値 $x$ と、その確率 $P(X=x)$ の対応関係を 確率分布 と呼びます。

この対応関係は、 にまとめると非常に分かりやすくなります。


確率分布表

赤玉の個数 $x$ 0 1 2 合計
確率 $P(X=x)$ $\frac{1}{3}$ $\frac{8}{15}$ $\frac{2}{15}$ 1


注目すべきは、 すべての確率を合計すると必ず1になる ことです。

$$
\frac{5}{15} + \frac{8}{15} + \frac{2}{15} = \frac{15}{15} = 1
$$


ここまでのまとめ:とびとびの値の場合

  • 離散型確率変数

    • 赤玉の個数 $X$ のように、とりうる値が $0, 1, 2$ のように とびとび になっている変数のこと。
  • 確率質量関数

    • 「$X$ が特定の値 $x$ をとる確率 $P(X=x)$」を表す関数のこと。

【ステップ1】 具体例②:バスを待つ

次に、値が 連続的 になるケースを見てみましょう。

あるバス停では、バスの到着間隔が10分です。

利用者がバス停に着いてから、次のバスが到着するまでの 待ち時間 を考えます。


「連続型確率変数」とは?

この「待ち時間 $X$」は、0分から10分の間の 任意の実数値 をとる可能性があります (例: 3.5分、8.125分など)。

このように、値がとびとびではなく、ある区間内の値をとる変数を 連続型確率変数 と呼びます。

  • 他の例:身長、体重、気温など

連続型の場合の「確率」の考え方

連続型の場合、$X=5$ のように「待ち時間がピッタリ5分」になる確率は、限りなく0に近いと考え、 $P(X=x) = 0$ と特徴されます。

では、どうやって確率を表すのか?

確率密度関数 というグラフを使い、 面積 で確率を表現します。


「確率密度関数」とは?

今回の例では、待ち時間 $X$ の確率密度関数 $f(x)$ が以下で与えられるとします。

$$
f(x) =
\begin{cases}
\frac{1}{10} & (0 \le x \le 10) \
0 & (\text{それ以外})
\end{cases}
$$

これは「0分から10分の間では、どの待ち時間も同じように起こりやすい」ことを意味します。


確率密度関数のグラフ

image.png


import matplotlib.pyplot as plt
import numpy as np

# Data for the uniform distribution
x = np.linspace(-2, 12, 500)
y = np.where((x >= 0) & (x <= 10), 1/10, 0)

# Create the plot
plt.figure(figsize=(8, 5))
plt.plot(x, y, label='f(x)')

# Fill the area for P(2 <= X <= 5)
x_fill = np.linspace(2, 5, 100)
y_fill = np.full_like(x_fill, 1/10)
plt.fill_between(x_fill, y_fill, color='skyblue', alpha=0.5, label='P(2 <= X <= 5)')

# Add text for the area
plt.text(3.5, 0.05, 'Area = 3/10', horizontalalignment='center')

# Add titles and labels
plt.title('Probability Density Function (Uniform Distribution)')
plt.xlabel('Waiting Time X (minutes)')
plt.ylabel('Probability Density f(x)')
plt.ylim(0, 0.15)
plt.grid(True)
plt.legend()

# Show the plot
plt.show()

確率を計算してみよう

問題: 待ち時間が 2分から5分の間 である確率 $P(2 \le X \le 5)$ を求めてください。

これは、確率密度関数のグラフにおいて、$x=2$ から $x=5$ までの区間の 面積 を求めることに相当します。

数学的には、 積分 を使って計算します。


確率の計算(積分)

$$
P(2 \le X \le 5) = \int_2^5 f(x)dx = \int_2^5 \frac{1}{10} dx
$$

これを計算すると…
$$
\left[ \frac{1}{10}x \right]_2^5 = \frac{1}{10}(5) - \frac{1}{10}(2) = \frac{5-2}{10} = \frac{3}{10}
$$

確率は 0.3 となります。
これは、高さ $\frac{1}{10}$、横幅 $5-2=3$ の長方形の面積と同じです。


【ステップ3】 一般化と特徴

ここまでの具体例を踏まえて、用語を確認し直しましょう。


特徴のまとめ (1/3)

  • 確率変数

    • 試行の結果によって、とりうる値が確率的に決まる変数。
    • 大文字 $X$ で表し、実現値は小文字 $x$ で表す。
  • 確率分布

    • 確率変数 $X$ がとる値 $x$ と、その確率との対応関係。
    • 表、数式、グラフなどで表現される。

特徴のまとめ (2/3)

  • 離散型確率変数
    • 特徴: とりうる値が とびとび の変数 (例: サイコロの目)。
    • 確率: 確率質量関数 $P(X=x)$ で表す。
    • 性質: すべての確率の 合計1 になる。
      $$
      \sum_{i} P(X=x_i) = 1
      $$

特徴のまとめ (3/3)

  • 連続型確率変数
    • 特徴: とりうる値が 連続的 な変数 (例: 身長、時間)。
    • 確率: 確率密度関数 $f(x)$ の 面積(積分) で表す。
      $$
      P(a \le X \le b) = \int_a^b f(x)dx
      $$
    • 性質: 全範囲の 面積(積分値)1 になる。
      $$
      \int_{-\infty}^{\infty} f(x)dx = 1
      $$

さいごに

本日のまとめです。

  • 確率変数 : 試行の結果によって値が決まる変数。
  • 確率分布 : 確率変数がとる値と、その確率の対応関係。
  • 離散型 : 値がとびとび。確率は 確率質量関数 で表し、総和は1。
  • 連続型 : 値が連続的。確率は 確率密度関数 の面積で表し、全面積は1。

これらの概念は、あらゆる統計モデルの基礎となります。
まずはこの違いをしっかり区別できるようになりましょう。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?