0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

実践から学ぶサンプルサイズの計算方法_統計検定2級対策

0
Posted at

以下の統計検定2級対策動画で用いられているスライドの一部です。

調査をするとき、こんな疑問はありませんか?

「一体 どれくらいの数 を調べれば、
信頼できる結果が得られるのか?」

  • 多すぎる調査: コストと時間がかかる…
  • 少なすぎる調査: 結果の信頼性が低い…

➡️ 適切なサンプルサイズ を事前に計算することが重要です!


このセッションで学ぶこと

統計的根拠 に基づいて、必要なサンプルサイズを計算する方法を解説します。

  1. 実践編:具体例で計算してみよう

    • まずは具体的なケーススタディを通して、計算プロセスを体験します。
  2. 理論編:計算の背景を理解しよう

    • 次に、計算の根拠となる統計的な理論を一般化して解説します。

1. 実践編:具体例で計算してみよう


ケーススタディ:課題設定

あるECサイトで、新しく導入した決済機能のユーザー満足度を調査します。

  • 目的

    • 新決済機能を利用したユーザーのうち、「満足している」と回答するユーザーの割合を推定したい。
  • 要求精度

    • 信頼度: 95%
    • 誤差: 推定値と真の割合との差を ±3%以内 に収めたい。

計算手順 Step 1: パラメータの設定

調査の要求精度を、計算で用いる数値に置き換えます。

  • 信頼度 95%

    • 統計的な係数である $z$ 値 に変換します。
    • 95%の信頼度は、$z = 1.96$ に対応します。
  • 許容誤差 ±3%

    • 計算で使う $E$ の値に変換します。
    • $E = 0.03$ となります。

計算手順 Step 1: パラメータの設定 (続き)

  • 満足しているユーザーの割合 ($\hat{p}$)

    • これは 調査前なので不明 です。
  • どうすれば良いか?

    • このような場合、計算結果が最も大きくなる(= 最も安全なサンプル数を確保できる)値を仮定します。
    • $\hat{p} = 0.5$ を使用します。

補足:なぜ $\hat{p} = 0.5$ を使うのか?

サンプルサイズの計算式には、$\hat{p}(1-\hat{p})$ という項が含まれます。
この項の値は、$\hat{p}=0.5$ のときに最大値 0.25 をとります。

image.png



グラフ生成用Pythonコード
import numpy as np
import matplotlib.pyplot as plt

# Generate p values from 0 to 1
p = np.linspace(0, 1, 100)
# Calculate p(1-p)
y = p * (1 - p)

# Create the plot
plt.figure(figsize=(8, 6))
plt.plot(p, y, label='y = p(1-p)')

# Add a vertical line and a point at p=0.5
plt.axvline(x=0.5, color='red', linestyle='--', label='p = 0.5')
plt.plot(0.5, 0.25, 'ro') # Mark the maximum point

# Add annotations and labels
plt.title('Value of p(1-p)')
plt.xlabel('p (Sample Proportion)')
plt.ylabel('Value of p(1-p)')
plt.text(0.5, 0.255, 'Max value = 0.25', ha='center', color='red')
plt.grid(True)
plt.legend()
plt.show()

計算手順 Step 2 & 3: 計算の実行

設定したパラメータを、サンプルサイズ $n$ を求める公式に代入します。

$$
n = \frac{z^2 \hat{p}(1-\hat{p})}{E^2}
$$

値を代入:
$$
n = \frac{1.96^2 \times 0.5 \times (1-0.5)}{0.03^2}
$$

計算結果:
$$
n = \frac{3.8416 \times 0.25}{0.0009} = \frac{0.9604}{0.0009} \approx 1067.11
$$


計算手順 Step 4: 結論

  • 計算結果: $n \approx 1067.11$

  • サンプルサイズは人数なので、整数にする必要があります。

  • 注意点

    • 必要な精度を保証するため、小数点以下は 常に切り上げ ます。

結論:この調査では 1068人以上 のユーザーから回答を得る必要がある。


2. 理論編:計算の背景を理解しよう


理論1: 計算の前提となる考え方

ここまでの計算は、 母比率の区間推定 という考え方に基づいています。

  • 母比率 $p$

    • 調査対象となる 集団全体 の真の割合。(例:全ユーザーの満足度)
    • 私たちが本当に知りたい値です。
  • 標本比率 $\hat{p}$

    • 調査で得られた サンプル から計算した割合。(例:1068人の満足度)
    • 母比率 $p$ を推定するために使います。

理論2: 信頼区間とは?

信頼区間 とは、計算の結果「母比率 $p$ が、おそらくこの範囲に含まれるだろう」と推定される範囲のことです。

例えば、95%信頼区間 の公式は以下の通りです。

$$
\hat{p} \pm 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
$$


この式の $\pm$ の後の部分が、推定値の 誤差の大きさ を示しています。


理論3: サンプルサイズ計算式の導出

先ほどの「誤差の大きさ」の部分が、私たちが調査前に設定した 許容誤差 $E$ に対応します。

$$
E = z \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
$$

($z$ は信頼度に応じた係数。95%なら1.96)

この式を、求めたい サンプルサイズ $n$ について解くと…

$$
n = \frac{z^2 \hat{p}(1-\hat{p})}{E^2}
$$

これが、実践編で使った計算式の正体です。


理論4: 標本比率が未知の場合の対処法

計算式に含まれる $\hat{p}$ は、調査前には分かりません。対処法は2つあります。

  • 方法1: 過去のデータを利用する

    • 過去の同様の調査や、小規模な予備調査の結果があれば、その値を $\hat{p}$ の近似値として使えます。
  • 方法2: 最も安全な値を設定する

    • 事前の情報が何もない場合は、 $\hat{p}=0.5$ を使います。
    • これにより、どのような結果が出ても目標の精度を必ず満たす、十分なサンプルサイズを算出できます。

まとめ


本日のまとめ

信頼できる調査のために、必要なサンプルサイズを計算する手順は以下の通りです。

  1. 目標とする精度を決める

    • 許容誤差 $E$ (例: 0.03) と 信頼係数 $z$ (例: 1.96) を設定します。
  2. 標本比率 $\hat{p}$ を仮定する

    • 過去データがなければ、最も安全な $\hat{p} = 0.5$ を使います。
  3. 公式を使って計算する

    • $n = \frac{z^2 \hat{p}(1-\hat{p})}{E^2}$ で必要なサンプルサイズを算出します。

統計的根拠に基づくサンプル設計で、調査の信頼性を高めましょう。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?