以下の統計検定2級対策動画で用いられているスライドの一部です。
調査をするとき、こんな疑問はありませんか?
「一体 どれくらいの数 を調べれば、
信頼できる結果が得られるのか?」
- 多すぎる調査: コストと時間がかかる…
- 少なすぎる調査: 結果の信頼性が低い…
➡️ 適切なサンプルサイズ を事前に計算することが重要です!
このセッションで学ぶこと
統計的根拠 に基づいて、必要なサンプルサイズを計算する方法を解説します。
-
実践編:具体例で計算してみよう
- まずは具体的なケーススタディを通して、計算プロセスを体験します。
-
理論編:計算の背景を理解しよう
- 次に、計算の根拠となる統計的な理論を一般化して解説します。
1. 実践編:具体例で計算してみよう
ケーススタディ:課題設定
あるECサイトで、新しく導入した決済機能のユーザー満足度を調査します。
-
目的
- 新決済機能を利用したユーザーのうち、「満足している」と回答するユーザーの割合を推定したい。
-
要求精度
- 信頼度: 95%
- 誤差: 推定値と真の割合との差を ±3%以内 に収めたい。
計算手順 Step 1: パラメータの設定
調査の要求精度を、計算で用いる数値に置き換えます。
-
信頼度 95%
- 統計的な係数である $z$ 値 に変換します。
- 95%の信頼度は、$z = 1.96$ に対応します。
-
許容誤差 ±3%
- 計算で使う $E$ の値に変換します。
- $E = 0.03$ となります。
計算手順 Step 1: パラメータの設定 (続き)
-
満足しているユーザーの割合 ($\hat{p}$)
- これは 調査前なので不明 です。
-
どうすれば良いか?
- このような場合、計算結果が最も大きくなる(= 最も安全なサンプル数を確保できる)値を仮定します。
- $\hat{p} = 0.5$ を使用します。
補足:なぜ $\hat{p} = 0.5$ を使うのか?
サンプルサイズの計算式には、$\hat{p}(1-\hat{p})$ という項が含まれます。
この項の値は、$\hat{p}=0.5$ のときに最大値 0.25 をとります。
グラフ生成用Pythonコード
import numpy as np
import matplotlib.pyplot as plt
# Generate p values from 0 to 1
p = np.linspace(0, 1, 100)
# Calculate p(1-p)
y = p * (1 - p)
# Create the plot
plt.figure(figsize=(8, 6))
plt.plot(p, y, label='y = p(1-p)')
# Add a vertical line and a point at p=0.5
plt.axvline(x=0.5, color='red', linestyle='--', label='p = 0.5')
plt.plot(0.5, 0.25, 'ro') # Mark the maximum point
# Add annotations and labels
plt.title('Value of p(1-p)')
plt.xlabel('p (Sample Proportion)')
plt.ylabel('Value of p(1-p)')
plt.text(0.5, 0.255, 'Max value = 0.25', ha='center', color='red')
plt.grid(True)
plt.legend()
plt.show()
計算手順 Step 2 & 3: 計算の実行
設定したパラメータを、サンプルサイズ $n$ を求める公式に代入します。
$$
n = \frac{z^2 \hat{p}(1-\hat{p})}{E^2}
$$
値を代入:
$$
n = \frac{1.96^2 \times 0.5 \times (1-0.5)}{0.03^2}
$$
計算結果:
$$
n = \frac{3.8416 \times 0.25}{0.0009} = \frac{0.9604}{0.0009} \approx 1067.11
$$
計算手順 Step 4: 結論
-
計算結果: $n \approx 1067.11$
-
サンプルサイズは人数なので、整数にする必要があります。
-
注意点
- 必要な精度を保証するため、小数点以下は 常に切り上げ ます。
結論:この調査では 1068人以上 のユーザーから回答を得る必要がある。
2. 理論編:計算の背景を理解しよう
理論1: 計算の前提となる考え方
ここまでの計算は、 母比率の区間推定 という考え方に基づいています。
-
母比率 $p$
- 調査対象となる 集団全体 の真の割合。(例:全ユーザーの満足度)
- 私たちが本当に知りたい値です。
-
標本比率 $\hat{p}$
- 調査で得られた サンプル から計算した割合。(例:1068人の満足度)
- 母比率 $p$ を推定するために使います。
理論2: 信頼区間とは?
信頼区間 とは、計算の結果「母比率 $p$ が、おそらくこの範囲に含まれるだろう」と推定される範囲のことです。
例えば、95%信頼区間 の公式は以下の通りです。
$$
\hat{p} \pm 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
$$
この式の $\pm$ の後の部分が、推定値の 誤差の大きさ を示しています。
理論3: サンプルサイズ計算式の導出
先ほどの「誤差の大きさ」の部分が、私たちが調査前に設定した 許容誤差 $E$ に対応します。
$$
E = z \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
$$
($z$ は信頼度に応じた係数。95%なら1.96)
この式を、求めたい サンプルサイズ $n$ について解くと…
$$
n = \frac{z^2 \hat{p}(1-\hat{p})}{E^2}
$$
これが、実践編で使った計算式の正体です。
理論4: 標本比率が未知の場合の対処法
計算式に含まれる $\hat{p}$ は、調査前には分かりません。対処法は2つあります。
-
方法1: 過去のデータを利用する
- 過去の同様の調査や、小規模な予備調査の結果があれば、その値を $\hat{p}$ の近似値として使えます。
-
方法2: 最も安全な値を設定する
- 事前の情報が何もない場合は、 $\hat{p}=0.5$ を使います。
- これにより、どのような結果が出ても目標の精度を必ず満たす、十分なサンプルサイズを算出できます。
まとめ
本日のまとめ
信頼できる調査のために、必要なサンプルサイズを計算する手順は以下の通りです。
-
目標とする精度を決める
- 許容誤差 $E$ (例: 0.03) と 信頼係数 $z$ (例: 1.96) を設定します。
-
標本比率 $\hat{p}$ を仮定する
- 過去データがなければ、最も安全な $\hat{p} = 0.5$ を使います。
-
公式を使って計算する
- $n = \frac{z^2 \hat{p}(1-\hat{p})}{E^2}$ で必要なサンプルサイズを算出します。
統計的根拠に基づくサンプル設計で、調査の信頼性を高めましょう。
