以下の統計検定2級®︎対策動画で用いられているスライドの一部です。
統計検定®2級対策オリジナル問題であり、非公式です。
※統計検定®は一般財団法人統計質保証推進協会の登録商標です。
問題
ある調査会社が、全国の成人を対象にオンラインショッピングの利用経験について、2つの異なる時点(2018年と2023年)で調査を行った。結果は以下の通りであった。データはそれぞれ単純無作為抽出されたものとする。
| 調査年 | 回答者数 | 利用経験ありの割合 |
|---|---|---|
| 2023年 | 2000人 | 62.5% |
| 2018年 | 1500人 | 55.0% |
[1] 2023年の調査における、オンラインショッピングの利用経験がある人の母比率 $p$ に対する95%信頼区間として、最も適切なものを次の①~⑤のうちから一つ選べ。ただし、95%信頼区間の計算には、正規分布のパーセント点として 1.96 を用いること。
① $[0.583, 0.667]$ ② $[0.592, 0.658]$ ③ $[0.604, 0.646]$ ④ $[0.614, 0.636]$ ⑤ $[0.621, 0.629]$
解答
[1] ③ $[0.604, 0.646]$
ポイント解説:母比率の区間推定
この問題は、統計的推測の根幹である 母比率の区間推定 がテーマです。
-
母集団 (知りたい対象全体)
- 日本の成人全体
-
母比率 (母集団の真の割合)
- 全成人のオンラインショッピング利用率
-
標本 (調査した一部)
- 2023年に調査した2000人
-
標本比率 (標本から得られた割合)
- 62.5%
標本調査の結果から、真の母比率がどの範囲にあるかを 確率的に 推定します。
ポイント解説:信頼区間とは?
標本から得られる 標本比率 は、あくまで一部の結果であり、真の 母比率 とは少しずれている可能性があります。
信頼区間
「真の母比率は、おそらくこの範囲にあるだろう」という、 信頼度 を伴った推定範囲のこと。
-
95%信頼区間 とは…
- 「同じ調査を100回繰り返したら、そのうち95回はこの区間内に真の母比率が含まれるだろう」という意味です。
- 点の推定値(例: 62.5%)が持つ 不確実性(誤差) を定量的に示します。
ポイント解説:統計学的な背景
-
ベルヌーイ試行
- 各調査対象者が「利用経験あり(1)」「なし(0)」のどちらかをとる試行。
-
二項分布
- 標本中の利用経験者数 $Y$ が従う確率分布。
-
正規分布による近似
- 標本の大きさ $n$ が十分に大きい場合( 中心極限定理 )、標本比率 $\hat{p} = Y/n$ の分布は正規分布で近似できます。
- 平均: $p$
- 分散: $p(1-p)/n$
- この性質を利用して信頼区間を計算します。
問題の確認
[1] 2023年の調査における、オンラインショッピングの利用経験がある人の母比率 $p$ に対する95%信頼区間として、最も適切なものを次の①~⑤のうちから一つ選べ。ただし、95%信頼区間の計算には、正規分布のパーセント点として 1.96 を用いること。
| 調査年 | 回答者数 | 利用経験ありの割合 |
|---|---|---|
| 2023年 | 2000人 | 62.5% |
① $[0.583, 0.667]$ ② $[0.592, 0.658]$ ③ $[0.604, 0.646]$ ④ $[0.614, 0.636]$ ⑤ $[0.621, 0.629]$
解答の根拠 (1) - 計算式
母比率の95%信頼区間は、標本比率を $\hat{p}$ 、標本の大きさを $n$ とすると、次の公式で計算されます。
$$
\hat{p} \pm 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
$$
- $\hat{p}$: 標本比率 (0.625)
- $n$: 標本の大きさ (2000)
- $1.96$: 95%信頼区間に対応する正規分布のパーセント点
解答の根拠 (2) - 計算過程
-
$\hat{p}(1-\hat{p})$ の計算
$0.625 \times (1 - 0.625) = 0.625 \times 0.375 = 0.234375$ -
標準誤差の計算
$\sqrt{\frac{0.234375}{2000}} \approx \sqrt{0.0001171875} \approx 0.010825$ -
誤差の限界(信頼区間の幅の半分)の計算
$1.96 \times 0.010825 \approx 0.021217$ -
信頼区間の算出
- 下限: $0.625 - 0.021217 \approx 0.60378 \rightarrow \mathbf{0.604}$
- 上限: $0.625 + 0.021217 \approx 0.64622 \rightarrow \mathbf{0.646}$
したがって、95%信頼区間は $[0.604, 0.646]$ となり、選択肢 ③ が正解です。
解答の根拠 (3) - 結果の可視化
計算結果をグラフで確認すると、標本比率 62.5% を中心として、真の母比率が含まれると95%の確からしさで推定される範囲が [60.4%, 64.6%] であることが視覚的にわかります。
問題
[2] 2018年と2023年の結果を比較する。次の文章の(ア)、(イ)にあてはまるものの組合せとして、最も適切なものを①~⑤のうちから一つ選べ。
「2023年の利用率と2018年の利用率の差の95%信頼区間は (ア) と計算される。この信頼区間は0を含まないため、オンラインショッピングの利用率は、2018年から2023年にかけて有意水準5%で (イ)。」
問題 (選択肢)
① (ア) $0.075 \pm 1.96 \sqrt{\frac{0.625 \times 0.375}{2000} - \frac{0.550 \times 0.450}{1500}}$, (イ) 変化したといえる
② (ア) $0.075 \pm 1.96 \sqrt{\frac{0.625 \times 0.375}{2000} + \frac{0.550 \times 0.450}{1500}}$, (イ) 変化したといえる
③ (ア) $0.075 \pm 1.96 \sqrt{\frac{0.625 \times 0.375}{2000} + \frac{0.550 \times 0.450}{1500}}$, (イ) 変化したとはいえない
④ (ア) $0.075 \pm 1.96 \left(\frac{0.625 \times 0.375}{2000} + \frac{0.550 \times 0.450}{1500}\right)$, (イ) 変化したといえる
⑤ (ア) $0.075 \pm 1.96 \sqrt{\frac{0.075 \times 0.925}{3500}}$, (イ) 変化したとはいえない
解答
[2] ②
(ア) $0.075 \pm 1.96 \sqrt{\frac{0.625 \times 0.375}{2000} + \frac{0.550 \times 0.450}{1500}}$
(イ) 変化したといえる
ポイント解説:母比率の差の検定
この問題のテーマは、2つのグループや時点の割合を比較する 母比率の差の検定 です。
-
目的
- 2つの比率の差が 偶然 によるものか、 意味のある差(有意差) なのかを判断する。
-
手法
- 仮説検定 を用いる。
-
よく使われる場面
- ABテスト(例:ウェブサイトのデザイン比較)
- 薬の効果測定(例:新薬とプラセボの効果比較)
- 社会調査(例:男女間の意見の差)
ポイント解説:信頼区間による検定
この問題では、 信頼区間 を使って検定を行います。
-
「差はない」と仮定する
- 帰無仮説:$p_{2023} - p_{2018} = 0$
- まずは「2つの時点の利用率に差はない」と仮定します。
-
差の信頼区間を計算する
- 観測されたデータから、2つの比率の差の95%信頼区間を求めます。
-
信頼区間に「0」が含まれるか確認する
- 含まれない場合:「差はない ($=0$)」という仮定は成り立ちにくいと判断し、 「有意な差がある」 と結論付けます。
- 含まれる場合:「差はない ($=0$)」という可能性を否定できず、 「有意な差があるとはいえない」 と結論付けます。
ポイント解説:統計学的な背景
-
仮説の設定
- 帰無仮説 ($H_0$): 2つの母比率に差はない。($p_1 - p_2 = 0$)
- 対立仮説 ($H_1$): 2つの母比率に差がある。($p_1 - p_2 \neq 0$)
-
標本比率の差の分布
- 2つの独立な標本比率 $\hat{p}_1$ と $\hat{p}_2$ は、それぞれ正規分布で近似できます。
- そのため、標本比率の差 $\hat{p}_1 - \hat{p}_2$ の分布も正規分布で近似できます。
- 平均: $p_1 - p_2$
- 分散: $\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}$ (分散の加法性)
問題の確認
[2] 2018年と2023年の結果を比較する。次の文章の(ア)、(イ)にあてはまるものの組合せとして、最も適切なものを①~⑤のうちから一つ選べ。
「2023年の利用率と2018年の利用率の差の95%信頼区間は (ア) と計算される。この信頼区間は0を含まないため、オンラインショッピングの利用率は、2018年から2023年にかけて有意水準5%で (イ)。」
解答の根拠 (1) - (ア)の式の特定
2つの独立した母比率の差 $p_1 - p_2$ の95%信頼区間は、次の公式で計算します。
$$
(\hat{p}_1 - \hat{p}_2) \pm 1.96 \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}
$$
- 2023年($p_1$): $\hat{p}_1 = 0.625$, $n_1 = 2000$
- 2018年($p_2$): $\hat{p}_2 = 0.550$, $n_2 = 1500$
- 標本比率の差: $0.625 - 0.550 = 0.075$
-
公式への代入:
$0.075 \pm 1.96 \sqrt{\frac{0.625 \times (1-0.625)}{2000} + \frac{0.550 \times (1-0.550)}{1500}}$
この式は、選択肢 ② と ③ の(ア)と一致します。
解答の根拠 (2) - (イ)の判断
次に、信頼区間の具体的な値を計算して「0」を含むか確認します。
-
根号内の計算
$\sqrt{\frac{0.234375}{2000} + \frac{0.2475}{1500}} = \sqrt{0.0001171... + 0.000165} \approx \sqrt{0.0002821} \approx 0.0168$ -
誤差の限界の計算
$1.96 \times 0.0168 \approx 0.0329$ -
信頼区間の算出
- 下限: $0.075 - 0.0329 = 0.0421$
- 上限: $0.075 + 0.0329 = 0.1079$
信頼区間は [0.0421, 0.1079] となります。
解答の根拠 (3) - 結論
- 計算された信頼区間 [0.0421, 0.1079] は 「0」を含んでいません 。
- これは、帰無仮説「差がない($p_1 - p_2 = 0$)」が棄却されることを意味します。
- したがって、2つの比率には統計的に 有意な差 があると結論できます。
よって、(イ)にあてはまるのは 「変化したといえる」 です。
(ア)の式と(イ)の結論から、正解は選択肢 ② となります。

