0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

母比率の信頼区間とは、不良品率を例に計算方法を学ぶ_統計検定2級対策

Posted at

以下の統計検定2級対策動画で用いられているスライドの一部です。

こんなことを考えたことはありませんか?

  • 「一部のアンケート結果から、 全体の支持率 を予測したい」

  • 「製造ラインから抜き取った製品の検査結果から、 工場全体の不良品率 を把握したい」


このような「 一部分 」から「 全体 」を推測する考え方が
統計的推定 です。


このセッションで学ぶこと

今回は 統計的推定 の中でも特に重要な 母比率の信頼区間 について学びます。

  1. 具体例から学ぶ

    • 先に具体的な問題を解きながら、考え方の流れを掴みます。
  2. 一般化と公式のまとめ

    • 最後に、定義と公式を確認します。

1. 具体例から学ぶ

工場の不良品率を推定する


【問題】

ある工場で大量に生産された電子部品の中から、 400個 を無作為に抽出して検査したところ、 20個 が不良品でした。

この工場の製品全体の不良品率 $p$ に対する、 信頼係数95%の信頼区間 を求めてください。


ステップ1: 用語の確認と標本比率の計算

まず、問題に出てくる用語を整理します。

  • 母集団: 工場で生産された 電子部品
  • 母比率 $p$: 電子部品における不良品の割合( 本当に知りたい値
  • 標本: 無作為に抽出した 400個 の電子部品
  • 標本の大きさ $n$: 標本に含まれる要素の数( $n=400$ )

ステップ1: 用語の確認と標本比率の計算

次に、手元にある標本データ(400個)から不良品の割合を計算します。
これを 標本比率 $\hat{p}$ と呼びます。

  • 標本中の不良品の数: $x = 20$
  • 標本の大きさ: $n = 400$

$$
\hat{p} = \frac{x}{n} = \frac{20}{400} = 0.05
$$

この標本における不良品率は 5% でした。


ステップ2: 信頼区間の考え方 (1/3)

標本比率の5%は、あくまで「たまたま抽出した400個」から得られた結果です。
もし、もう一度別の400個を抽出したら、結果は少し変わるかもしれません。

ひとつの値だけで全体を推定する( 点推定 )だけでは、その推定がどれほど確からしいのか分かりません。


ステップ2: 信頼区間の考え方 (2/3)

そこで、「母比率 $p$ は、おそらく この範囲からこの範囲の間にある だろう」と、幅を持たせて推定します。

  • この手法を 区間推定 と呼びます。
  • この推定された範囲を 信頼区間 と呼びます。

ステップ2: 信頼区間の考え方 (3/3)

今回は 信頼係数95% でこの区間を求めます。
この「95%」とは、どういう意味でしょうか?

「同じ手順で標本の抽出と信頼区間の計算を100回繰り返した場合、そのうち 約95回 は、計算された区間が 真の母比率 $p$ を含む

これは、私たちが算出した一つの信頼区間が、真の母比率を「捉えている」と期待できる度合いを示しています。


信頼区間のイメージ

image.png


import numpy as np
import matplotlib.pyplot as plt

# Parameters
p_true = 0.06  # True population proportion
n = 400       # Sample size
n_simulations = 100
confidence_level = 0.95
z = 1.96

# Simulation
plt.figure(figsize=(10, 8))
captured_count = 0

for i in range(n_simulations):
    # Generate a sample
    sample = np.random.binomial(1, p_true, n)
    p_hat = np.mean(sample)
    
    # Calculate confidence interval
    se = np.sqrt(p_hat * (1 - p_hat) / n)
    ci_lower = p_hat - z * se
    ci_upper = p_hat + z * se
    
    # Check if the true proportion is captured
    color = 'blue'
    if not (ci_lower <= p_true <= ci_upper):
        color = 'red'
    else:
        captured_count += 1
    
    plt.errorbar(x=p_hat, y=i+1, xerr=[[p_hat - ci_lower], [ci_upper - p_hat]], fmt='o', color=color, capsize=3, markersize=4)

plt.axvline(x=p_true, color='green', linestyle='--', label=f'True Proportion (p={p_true})')
plt.title(f'95% Confidence Intervals for {n_simulations} Simulations')
plt.xlabel('Proportion')
plt.ylabel('Simulation Number')
plt.yticks(np.arange(0, n_simulations + 1, 10))
plt.grid(axis='x', linestyle=':')
plt.legend()
plt.show()


ステップ3: 信頼区間の計算 (1/4)

それでは、実際に計算していきましょう。

  • 信頼係数95% の場合、統計的に決まった値 $z=1.96$ を使います。

  • 計算は、 標本比率 $\hat{p}$ を中心に、ある一定の幅( 誤差の範囲 )を足したり引いたりして行います。

    信頼区間 = 標本比率 ± 誤差の範囲


ステップ3: 信頼区間の計算 (2/4)

まず、誤差を計算する基礎となる 標準誤差 を求めます。

$$
\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} = \sqrt{\frac{0.05 \times (1-0.05)}{400}}
$$

$$
= \sqrt{\frac{0.0475}{400}} = \sqrt{0.00011875} \approx 0.0109
$$


ステップ3: 信頼区間の計算 (3/4)

次に、標準誤差に $z$ の値を掛けて 誤差の範囲 を求めます。

$$
\text{誤差の範囲} = z \times \text{標準誤差}
$$

$$
\approx 1.96 \times 0.0109 \approx 0.0214
$$


ステップ3: 信頼区間の計算 (4/4)

最後に、この誤差の範囲を標本比率 $0.05$ から足し引きします。

  • 信頼下限
    $0.05 - 0.0214 = 0.0286$

  • 信頼上限
    $0.05 + 0.0214 = 0.0714$


【解答】

求められた信頼区間は 0.0286 から 0.0714 となります。
分かりやすくパーセントで表現すると(小数点第1位まで)、

2.9\% \le p \le 7.1\%

結論: この工場の製品全体の不良品率 $p$ は、信頼係数95%で
約2.9% から 7.1% の間にある 」と推定されます。


2. 一般化と公式のまとめ


定義のまとめ

これまでに登場した用語を一般化して整理します。

  • 母集団: 調査や分析の対象となる すべて の要素の集まり。
  • 母比率 $p$: 母集団全体の中で、ある特定の性質を持つ要素が占める割合。
  • 標本: 母集団から無作為に選び出された 一部分 の要素の集まり。
  • 標本比率 $\hat{p}$: 標本の中で、ある特定の性質を持つ要素が占める割合。

母比率の信頼区間の公式

標本の大きさ $n$ が十分に大きい場合、母比率 $p$ の信頼区間は以下の公式で計算できます。

$$
\hat{p} - z \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \le p \le \hat{p} + z \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
$$

  • $\hat{p}$: 標本比率
  • $n$: 標本の大きさ
  • $z$: 信頼係数によって決まる値

信頼係数と $z$ の値

$z$ の値は、信頼係数に応じて決まります。代表的な値を以下に示します。

信頼係数 $z$ の値
90% 1.645
95% 1.960
99% 2.576

今回の例題では、信頼係数95%だったので $z=1.96$ を使用しました。


まとめ

  • 母比率の信頼区間 は、標本データから母集団全体の比率を「 範囲 」で推定する手法です。

  • 点推定だけでは分からない、推定の「 確からしさ 」を幅で表現します。

  • 計算には、 標本比率 $\hat{p}$標本の大きさ $n$ 、そして 信頼係数に応じた $z$ 値 が必要です。


まとめ (公式と活用)

公式
$$
\hat{p} \pm z \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
$$

活用分野

  • 品質管理
  • 市場調査
  • 世論調査 など

一部分のデータから全体像を科学的に推測する信頼区間の考え方は、非常に幅広い分野で活用されています。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?