1. 目的別のサンプルサイズの決定方法
(1) 推定(母集団の特性を推測)
- 信頼区間と許容誤差を考慮
- 例:市場調査、世論調査
-
計算方法:
- サンプルサイズ $( n = \frac{Z^2 \cdot p(1-p)}{E^2} )$
- $\ Z $:信頼水準に対応する標準正規分布の値(例:95%信頼水準なら1.96)
- $\ p $:母集団の推定割合(50%を仮定することが多い)
- $\ E $:許容誤差(例:±5%)
- サンプルサイズ $( n = \frac{Z^2 \cdot p(1-p)}{E^2} )$
(2) 比較(2つ以上のグループの差を検定)
- 統計的検定のパワー分析を活用
- 例:A/Bテスト、医療試験
-
計算方法:
- 効果量・検定力(通常80%)を考慮し、Cohen’s d などの基準を活用
- $\ n = f(\alpha, 1-\beta, \text{効果量}) $ (ソフトウェアを使って算出)
(3) 探索(定性的なデータを得る)
- 小規模でも深掘り
- 例:ユーザーインタビュー、フォーカスグループ
-
目安:
- 5〜10人程度(サチュレーション※が得られるまで)
- ※サチュレーション:新しい知見が得られなくなる状態
2. 制約条件別のサンプルサイズの決定方法
(1) コスト・時間の制約
- 限られたリソースで最適なサンプル数を決定
- 例:スタートアップの簡易調査 → 最低限の信頼性を確保(例:30〜100)
- アプローチ:
- 予算・時間内で収集可能な最大サンプルを確保
- 許容誤差を緩める(例:±10%など)
(2) データ取得の難易度
- サンプルが集まりにくい場合、データの代表性を優先
- 例:レアな病気の臨床試験 → 小規模でも統計的手法で補正
- アプローチ:
- ブートストラップ法 などでデータの不確実性を補完
- ケーススタディ など定性的手法と組み合わせる
(3) 母集団のサイズ
- 母集団が小さい場合は有限母集団補正を適用
- 例:特定業界の専門家調査
-
修正式:
- $\ n_{\text{修正}} = \frac{n_0}{1 + \frac{n_0 - 1}{N}} $
- $\ n_0 $:通常のサンプルサイズ
- $\ N $:母集団のサイズ
- $\ n_{\text{修正}} = \frac{n_0}{1 + \frac{n_0 - 1}{N}} $
3. データ特性別のサンプルサイズの決定方法
(1) 離散データ vs 連続データ
- 離散データ(Yes/No、購入有無など) → 必要サンプルが多め
- 連続データ(売上、スコアなど) → 分布が正規なら少なくてもOK
(2) ばらつき(分散)の大きさ
- 分散が大きいデータ(個人差が大きい場合)は、サンプル数を増やす必要あり
- 例:人間の行動データ(消費パターン) → 最低数百
- ばらつきが小さい場合(機械の測定誤差) → 小規模で済む(例:30〜50)
まとめ
シチュエーション | 目安サンプルサイズ | 主要考慮点 |
---|---|---|
世論調査・市場調査 | 400〜1000 | 信頼区間・誤差 |
A/Bテスト | 1000以上(要パワー分析) | 効果量・検定力 |
ユーザーインタビュー | 5〜15 | サチュレーション |
予算・時間制約あり | 30〜100 | 許容誤差を緩める |
レアケース調査 | 10〜50 | 代表性を確保 |
小規模母集団(N<1000) | 30〜Nの50%程度 | 有限母集団補正 |