0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

超幾何分布を理解する_統計検定2級対策

0
Posted at

以下の統計検定2級対策動画で用いられているスライドの一部です。

はじめに:具体例から考えよう

ある工場で製造された製品が50個入ったロットがあります。このロットには、6個の不良品が含まれていることがわかっています。
品質検査のために、このロットから無作為に8個の製品を 非復元抽出 します。

このとき、抽出した8個の中に 不良品がちょうど2個含まれている確率 は、どのくらいになるでしょうか?


問題設定の整理

まずは、状況を整理しましょう。

  • 母集団の総数 (ロット全体): 50個
  • ある性質を持つ要素 (不良品): 6個
  • 抽出する数: 8個
  • 抽出方法: 非復元抽出 (一度取り出したら戻さない)
  • 求めたい確率: 抽出した8個の中に、不良品が ちょうど2個 含まれる確率

確率計算の基本方針

このような場合の確率は、以下の基本的な考え方で計算できます。

確率 = (条件に合う場合の数) / (起こりうる全ての場合の数)

この方針に沿って、分母と分子をそれぞれ計算していきましょう。


Step 1: 起こりうる「全て」の場合の数を計算

まず、分母となる「起こりうる全ての場合の数」を計算します。
これは、「50個の製品全体から8個を選ぶ組み合わせ」の総数です。

$$
_{50} C_8 = \frac{50 \times 49 \times \dots \times 43}{8 \times 7 \times \dots \times 1}
$$

$$
= 536,878,650 \text{通り}
$$

これが、起こりうる全てのパターンです。


Step 2: 「条件に合う」場合の数を計算 (1/2)

次に、分子となる「不良品がちょうど2個含まれる」場合の数を計算します。
これは、2つのステップに分けられます。

  • 1. 不良品を選ぶ
    • 6個ある不良品の中から、 ちょうど2個 を選ぶ組み合わせを計算します。

$$
_6 C_2 = \frac{6 \times 5}{2 \times 1} = 15 \text{通り}
$$


Step 2: 「条件に合う」場合の数を計算 (2/2)

  • 2. 良品を選ぶ
    • 合計で8個抽出するので、残りの6個は良品でなければなりません。
    • 良品は全部で $50 - 6 = 44$ 個あります。
    • 44個の良品の中から、 残りの6個 を選ぶ組み合わせを計算します。

$$
_{44} C_6 = \frac{44 \times 43 \times \dots \times 39}{6 \times 5 \times \dots \times 1} = 7,059,052 \text{通り}
$$

「不良品2個」と「良品6個」を同時に選ぶので、これらを掛け合わせます。
$15 \times 7,059,052 = 105,885,780$ 通り


最終的な確率の計算

これで、分母と分子が揃いました。

  • 分子 (条件に合う場合の数): 105,885,780
  • 分母 (全ての場合の数): 536,878,650

最後に、これらを割り算して確率を求めます。

$$
P(\text{不良品が2個}) = \frac{105,885,780}{536,878,650} \approx 0.1972
$$

よって、不良品がちょうど2個含まれる確率は、 約19.72% となります。


期待値と分散も計算してみよう

この試行について、もう少し深く見てみましょう。

  • 期待値: 平均して 何個 の不良品が抽出されると期待できるか?
  • 分散: 抽出される不良品の数の ばらつき度合い はどのくらいか?

期待値 (平均値) の計算

期待値は、直感的に「抽出数」に「母集団の不良品率」を掛けることで計算できます。

  • 抽出数: 8個
  • 不良品率: 6 / 50

$$
E[X] = 8 \times \frac{6}{50} = \frac{48}{50} = 0.96
$$

8個抽出すると、平均して 0.96個 の不良品が含まれることが期待されます。


分散 (ばらつき) の計算

分散は、以下の式で計算します。

$$
V[X] = 8 \times \frac{6}{50} \left(1 - \frac{6}{50}\right) \frac{50-8}{50-1}
$$

$$
\approx 0.722
$$

式の最後にある $\frac{50-8}{50-1}$ は 有限母集団修正項 と呼ばれ、 非復元抽出 であることを考慮に入れるための重要な要素です。


重要な比較:二項分布との違い

今回の例のような「非復元抽出」を扱うのが 超幾何分布 です。
これとよく似た分布に 二項分布 がありますが、両者には明確な違いがあります。

違いは、 抽出方法 です。


比較:超幾何分布 vs 二項分布

項目 超幾何分布 (今回の例) 二項分布
抽出方法 非復元抽出 復元抽出
各試行の独立性 独立ではない 独立
成功確率 試行ごとに 変化する 試行ごとに 一定

もし、引いた製品を毎回ロットに戻すなら (復元抽出)、それは二項分布の問題になります。


ここまでのまとめ:具体例から一般化へ

これまで見てきた具体例の計算方法を、一般的な数式や定義としてまとめたものが 超幾何分布 です。

ここからは、この超幾何分布の学術的な側面を見ていきましょう。


定義:超幾何分布とは?

超幾何分布とは、

  • 2種類の結果を持つ 有限の母集団 から、
  • 非復元抽出 (一度取り出したものを元に戻さない方法)で標本を抽出し、
  • その標本に含まれる 特定の結果の個数 が従う確率分布
    のことです。

超幾何分布が従う4つの条件

以下の条件を満たす試行が、超幾何分布に従います。

  1. 母集団は $N$ 個の要素からなる (例: 製品50個)
  2. 母集団は、ある性質を持つ要素 $M$ 個とその性質を持たない要素 $N-M$ 個に分けられる (例: 不良品6個、良品44個)
  3. 母集団から $n$ 個の要素を 非復元抽出 する (例: 8個抽出)
  4. 抽出された $n$ 個の中に、性質を持つ要素が $k$ 個含まれる (例: 不良品が2個)

確率質量関数 (確率を求める公式)

特定の性質を持つ要素が $k$ 個含まれる確率 $P(X=k)$ は、以下の公式で計算されます。
これは、先ほどの例題で行った計算の一般化です。

$$
P(X=k) = \frac{{M C_k} \times {{N-M} C_{n-k}}}{_N C_n}
$$

  • $N$: 母集団の総数
  • $M$: 特定の性質を持つ要素の総数
  • $n$: 抽出する標本の大きさ
  • $k$: 標本に含まれる、特定の性質を持つ要素の数

期待値と分散の公式

超幾何分布の期待値と分散は、以下の公式で与えられます。

  • 期待値
    $$
    E[X] = n \frac{M}{N}
    $$

  • 分散
    $$
    V[X] = n \frac{M}{N} \left(1 - \frac{M}{N}\right) \frac{N-n}{N-1}
    $$


グラフによる可視化

例題のケース(N=50, M=6, n=8)で、抽出される不良品の個数ごとの確率をグラフにすると、以下のようになります。

image.png


import matplotlib.pyplot as plt
import numpy as np
from scipy.stats import hypergeom

# Parameters
N = 50  # Total number of items
M = 6   # Number of 'success' items (defective items)
n = 8   # Number of draws

# Possible values for k (number of defective items in the sample)
k_values = np.arange(0, M + 1)
# Calculate the probability mass function (PMF)
probabilities = hypergeom.pmf(k_values, N, M, n)

# Create the plot
plt.figure(figsize=(10, 6))
plt.bar(k_values, probabilities, color='skyblue', edgecolor='black')

# Add titles and labels
plt.title('Hypergeometric Distribution (N=50, M=6, n=8)')
plt.xlabel('Number of Defective Items in Sample (k)')
plt.ylabel('Probability P(X=k)')
plt.xticks(k_values)
plt.grid(axis='y', linestyle='--', alpha=0.7)

# Display the plot
plt.show()

まとめ

  • 超幾何分布 は、有限母集団からの 非復元抽出 における確率分布です。

  • 二項分布 との違いは、 抽出方法(復元か非復元か) と、それに伴う 各試行の独立性 です。

  • 確率、期待値、分散は、それぞれ決まった公式で計算できます。

  • 品質管理や生物の個体数調査など、実社会でも応用される重要な分布です。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?