実践から学ぶサンプルサイズの計算方法_統計検定2級対策

Posted at 2025-11-24

以下の統計検定2級対策動画で用いられているスライドの一部です。

調査をするとき、こんな疑問はありませんか？

「一体 どれくらいの数 を調べれば、
信頼できる結果が得られるのか？」

多すぎる調査: コストと時間がかかる…
少なすぎる調査: 結果の信頼性が低い…

➡️ 適切なサンプルサイズ を事前に計算することが重要です！

このセッションで学ぶこと

統計的根拠 に基づいて、必要なサンプルサイズを計算する方法を解説します。

実践編：具体例で計算してみよう
- まずは具体的なケーススタディを通して、計算プロセスを体験します。
理論編：計算の背景を理解しよう
- 次に、計算の根拠となる統計的な理論を一般化して解説します。

1. 実践編：具体例で計算してみよう

ケーススタディ：課題設定

あるECサイトで、新しく導入した決済機能のユーザー満足度を調査します。

目的
- 新決済機能を利用したユーザーのうち、「満足している」と回答するユーザーの割合を推定したい。
要求精度
- 信頼度: 95%
- 誤差: 推定値と真の割合との差を ±3%以内 に収めたい。

計算手順 Step 1: パラメータの設定

調査の要求精度を、計算で用いる数値に置き換えます。

信頼度 95%
- 統計的な係数である $z$ 値 に変換します。
- 95%の信頼度は、$z = 1.96$ に対応します。
許容誤差 ±3%
- 計算で使う $E$ の値に変換します。
- $E = 0.03$ となります。

計算手順 Step 1: パラメータの設定 (続き)

満足しているユーザーの割合 ($\hat{p}$)
- これは 調査前なので不明 です。
どうすれば良いか？
- このような場合、計算結果が最も大きくなる（= 最も安全なサンプル数を確保できる）値を仮定します。
- $\hat{p} = 0.5$ を使用します。

補足：なぜ $\hat{p} = 0.5$ を使うのか？

サンプルサイズの計算式には、$\hat{p}(1-\hat{p})$ という項が含まれます。
この項の値は、$\hat{p}=0.5$ のときに最大値 0.25 をとります。

グラフ生成用Pythonコード

import numpy as np
import matplotlib.pyplot as plt

# Generate p values from 0 to 1
p = np.linspace(0, 1, 100)
# Calculate p(1-p)
y = p * (1 - p)

# Create the plot
plt.figure(figsize=(8, 6))
plt.plot(p, y, label='y = p(1-p)')

# Add a vertical line and a point at p=0.5
plt.axvline(x=0.5, color='red', linestyle='--', label='p = 0.5')
plt.plot(0.5, 0.25, 'ro') # Mark the maximum point

# Add annotations and labels
plt.title('Value of p(1-p)')
plt.xlabel('p (Sample Proportion)')
plt.ylabel('Value of p(1-p)')
plt.text(0.5, 0.255, 'Max value = 0.25', ha='center', color='red')
plt.grid(True)
plt.legend()
plt.show()

計算手順 Step 2 & 3: 計算の実行

設定したパラメータを、サンプルサイズ $n$ を求める公式に代入します。

$$
n = \frac{z^2 \hat{p}(1-\hat{p})}{E^2}
$$

値を代入:
$$
n = \frac{1.96^2 \times 0.5 \times (1-0.5)}{0.03^2}
$$

計算結果:
$$
n = \frac{3.8416 \times 0.25}{0.0009} = \frac{0.9604}{0.0009} \approx 1067.11
$$

計算手順 Step 4: 結論

計算結果: $n \approx 1067.11$
サンプルサイズは人数なので、整数にする必要があります。
注意点
- 必要な精度を保証するため、小数点以下は 常に切り上げ ます。

結論：この調査では 1068人以上のユーザーから回答を得る必要がある。

2. 理論編：計算の背景を理解しよう

理論1: 計算の前提となる考え方

ここまでの計算は、 母比率の区間推定 という考え方に基づいています。

母比率 $p$
- 調査対象となる 集団全体 の真の割合。（例：全ユーザーの満足度）
- 私たちが本当に知りたい値です。
標本比率 $\hat{p}$
- 調査で得られた サンプル から計算した割合。（例：1068人の満足度）
- 母比率 $p$ を推定するために使います。

理論2: 信頼区間とは？

信頼区間 とは、計算の結果「母比率 $p$ が、おそらくこの範囲に含まれるだろう」と推定される範囲のことです。

例えば、95%信頼区間 の公式は以下の通りです。

$$
\hat{p} \pm 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
$$

この式の $\pm$ の後の部分が、推定値の 誤差の大きさ を示しています。

理論3: サンプルサイズ計算式の導出

先ほどの「誤差の大きさ」の部分が、私たちが調査前に設定した 許容誤差 $E$ に対応します。

$$
E = z \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
$$

($z$ は信頼度に応じた係数。95%なら1.96)

この式を、求めたい サンプルサイズ $n$ について解くと…

$$
n = \frac{z^2 \hat{p}(1-\hat{p})}{E^2}
$$

これが、実践編で使った計算式の正体です。

理論4: 標本比率が未知の場合の対処法

計算式に含まれる $\hat{p}$ は、調査前には分かりません。対処法は2つあります。

方法1: 過去のデータを利用する
- 過去の同様の調査や、小規模な予備調査の結果があれば、その値を $\hat{p}$ の近似値として使えます。
方法2: 最も安全な値を設定する
- 事前の情報が何もない場合は、 $\hat{p}=0.5$ を使います。
- これにより、どのような結果が出ても目標の精度を必ず満たす、十分なサンプルサイズを算出できます。

まとめ

本日のまとめ

信頼できる調査のために、必要なサンプルサイズを計算する手順は以下の通りです。

目標とする精度を決める
- 許容誤差 $E$ (例: 0.03) と 信頼係数 $z$ (例: 1.96) を設定します。
標本比率 $\hat{p}$ を仮定する
- 過去データがなければ、最も安全な $\hat{p} = 0.5$ を使います。
公式を使って計算する
- $n = \frac{z^2 \hat{p}(1-\hat{p})}{E^2}$ で必要なサンプルサイズを算出します。

統計的根拠に基づくサンプル設計で、調査の信頼性を高めましょう。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up