0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【統計検定®︎2級対策】母比率の信頼区間と差の検定

Posted at

以下の統計検定2級®︎対策動画で用いられているスライドの一部です。

統計検定®2級対策オリジナル問題であり、非公式です。
※統計検定®は一般財団法人統計質保証推進協会の登録商標です。


問題

ある調査会社が、全国の成人を対象にオンラインショッピングの利用経験について、2つの異なる時点(2018年と2023年)で調査を行った。結果は以下の通りであった。データはそれぞれ単純無作為抽出されたものとする。

調査年 回答者数 利用経験ありの割合
2023年 2000人 62.5%
2018年 1500人 55.0%

[1] 2023年の調査における、オンラインショッピングの利用経験がある人の母比率 $p$ に対する95%信頼区間として、最も適切なものを次の①~⑤のうちから一つ選べ。ただし、95%信頼区間の計算には、正規分布のパーセント点として 1.96 を用いること。

① $[0.583, 0.667]$ ② $[0.592, 0.658]$ ③ $[0.604, 0.646]$ ④ $[0.614, 0.636]$ ⑤ $[0.621, 0.629]$


解答

[1] ③ $[0.604, 0.646]$


ポイント解説:母比率の区間推定

この問題は、統計的推測の根幹である 母比率の区間推定 がテーマです。

  • 母集団 (知りたい対象全体)
    • 日本の成人全体
  • 母比率 (母集団の真の割合)
    • 全成人のオンラインショッピング利用率
  • 標本 (調査した一部)
    • 2023年に調査した2000人
  • 標本比率 (標本から得られた割合)
    • 62.5%

標本調査の結果から、真の母比率がどの範囲にあるかを 確率的に 推定します。


ポイント解説:信頼区間とは?

標本から得られる 標本比率 は、あくまで一部の結果であり、真の 母比率 とは少しずれている可能性があります。

信頼区間
「真の母比率は、おそらくこの範囲にあるだろう」という、 信頼度 を伴った推定範囲のこと。

  • 95%信頼区間 とは…
    • 「同じ調査を100回繰り返したら、そのうち95回はこの区間内に真の母比率が含まれるだろう」という意味です。
    • 点の推定値(例: 62.5%)が持つ 不確実性(誤差) を定量的に示します。

ポイント解説:統計学的な背景

  • ベルヌーイ試行

    • 各調査対象者が「利用経験あり(1)」「なし(0)」のどちらかをとる試行。
  • 二項分布

    • 標本中の利用経験者数 $Y$ が従う確率分布。
  • 正規分布による近似

    • 標本の大きさ $n$ が十分に大きい場合( 中心極限定理 )、標本比率 $\hat{p} = Y/n$ の分布は正規分布で近似できます。
    • 平均: $p$
    • 分散: $p(1-p)/n$
    • この性質を利用して信頼区間を計算します。

問題の確認

[1] 2023年の調査における、オンラインショッピングの利用経験がある人の母比率 $p$ に対する95%信頼区間として、最も適切なものを次の①~⑤のうちから一つ選べ。ただし、95%信頼区間の計算には、正規分布のパーセント点として 1.96 を用いること。

調査年 回答者数 利用経験ありの割合
2023年 2000人 62.5%

① $[0.583, 0.667]$ ② $[0.592, 0.658]$ ③ $[0.604, 0.646]$ ④ $[0.614, 0.636]$ ⑤ $[0.621, 0.629]$


解答の根拠 (1) - 計算式

母比率の95%信頼区間は、標本比率を $\hat{p}$ 、標本の大きさを $n$ とすると、次の公式で計算されます。

$$
\hat{p} \pm 1.96 \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
$$

  • $\hat{p}$: 標本比率 (0.625)
  • $n$: 標本の大きさ (2000)
  • $1.96$: 95%信頼区間に対応する正規分布のパーセント点

解答の根拠 (2) - 計算過程

  1. $\hat{p}(1-\hat{p})$ の計算
    $0.625 \times (1 - 0.625) = 0.625 \times 0.375 = 0.234375$

  2. 標準誤差の計算
    $\sqrt{\frac{0.234375}{2000}} \approx \sqrt{0.0001171875} \approx 0.010825$

  3. 誤差の限界(信頼区間の幅の半分)の計算
    $1.96 \times 0.010825 \approx 0.021217$

  4. 信頼区間の算出

    • 下限: $0.625 - 0.021217 \approx 0.60378 \rightarrow \mathbf{0.604}$
    • 上限: $0.625 + 0.021217 \approx 0.64622 \rightarrow \mathbf{0.646}$

したがって、95%信頼区間は $[0.604, 0.646]$ となり、選択肢 が正解です。


解答の根拠 (3) - 結果の可視化

計算結果をグラフで確認すると、標本比率 62.5% を中心として、真の母比率が含まれると95%の確からしさで推定される範囲が [60.4%, 64.6%] であることが視覚的にわかります。

image.png


問題

[2] 2018年と2023年の結果を比較する。次の文章の(ア)、(イ)にあてはまるものの組合せとして、最も適切なものを①~⑤のうちから一つ選べ。

「2023年の利用率と2018年の利用率の差の95%信頼区間は (ア) と計算される。この信頼区間は0を含まないため、オンラインショッピングの利用率は、2018年から2023年にかけて有意水準5%で (イ)。」


問題 (選択肢)

① (ア) $0.075 \pm 1.96 \sqrt{\frac{0.625 \times 0.375}{2000} - \frac{0.550 \times 0.450}{1500}}$, (イ) 変化したといえる
② (ア) $0.075 \pm 1.96 \sqrt{\frac{0.625 \times 0.375}{2000} + \frac{0.550 \times 0.450}{1500}}$, (イ) 変化したといえる
③ (ア) $0.075 \pm 1.96 \sqrt{\frac{0.625 \times 0.375}{2000} + \frac{0.550 \times 0.450}{1500}}$, (イ) 変化したとはいえない
④ (ア) $0.075 \pm 1.96 \left(\frac{0.625 \times 0.375}{2000} + \frac{0.550 \times 0.450}{1500}\right)$, (イ) 変化したといえる
⑤ (ア) $0.075 \pm 1.96 \sqrt{\frac{0.075 \times 0.925}{3500}}$, (イ) 変化したとはいえない


解答

[2]

(ア) $0.075 \pm 1.96 \sqrt{\frac{0.625 \times 0.375}{2000} + \frac{0.550 \times 0.450}{1500}}$

(イ) 変化したといえる


ポイント解説:母比率の差の検定

この問題のテーマは、2つのグループや時点の割合を比較する 母比率の差の検定 です。

  • 目的
    • 2つの比率の差が 偶然 によるものか、 意味のある差(有意差) なのかを判断する。
  • 手法
    • 仮説検定 を用いる。
  • よく使われる場面
    • ABテスト(例:ウェブサイトのデザイン比較)
    • 薬の効果測定(例:新薬とプラセボの効果比較)
    • 社会調査(例:男女間の意見の差)

ポイント解説:信頼区間による検定

この問題では、 信頼区間 を使って検定を行います。

  1. 「差はない」と仮定する

    • 帰無仮説:$p_{2023} - p_{2018} = 0$
    • まずは「2つの時点の利用率に差はない」と仮定します。
  2. 差の信頼区間を計算する

    • 観測されたデータから、2つの比率の差の95%信頼区間を求めます。
  3. 信頼区間に「0」が含まれるか確認する

    • 含まれない場合:「差はない ($=0$)」という仮定は成り立ちにくいと判断し、 「有意な差がある」 と結論付けます。
    • 含まれる場合:「差はない ($=0$)」という可能性を否定できず、 「有意な差があるとはいえない」 と結論付けます。

ポイント解説:統計学的な背景

  • 仮説の設定

    • 帰無仮説 ($H_0$): 2つの母比率に差はない。($p_1 - p_2 = 0$)
    • 対立仮説 ($H_1$): 2つの母比率に差がある。($p_1 - p_2 \neq 0$)
  • 標本比率の差の分布

    • 2つの独立な標本比率 $\hat{p}_1$ と $\hat{p}_2$ は、それぞれ正規分布で近似できます。
    • そのため、標本比率の差 $\hat{p}_1 - \hat{p}_2$ の分布も正規分布で近似できます。
      • 平均: $p_1 - p_2$
      • 分散: $\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}$ (分散の加法性)

問題の確認

[2] 2018年と2023年の結果を比較する。次の文章の(ア)、(イ)にあてはまるものの組合せとして、最も適切なものを①~⑤のうちから一つ選べ。

「2023年の利用率と2018年の利用率の差の95%信頼区間は (ア) と計算される。この信頼区間は0を含まないため、オンラインショッピングの利用率は、2018年から2023年にかけて有意水準5%で (イ)。」


解答の根拠 (1) - (ア)の式の特定

2つの独立した母比率の差 $p_1 - p_2$ の95%信頼区間は、次の公式で計算します。
$$
(\hat{p}_1 - \hat{p}_2) \pm 1.96 \sqrt{\frac{\hat{p}_1(1-\hat{p}_1)}{n_1} + \frac{\hat{p}_2(1-\hat{p}_2)}{n_2}}
$$

  • 2023年($p_1$): $\hat{p}_1 = 0.625$, $n_1 = 2000$
  • 2018年($p_2$): $\hat{p}_2 = 0.550$, $n_2 = 1500$
  1. 標本比率の差: $0.625 - 0.550 = 0.075$
  2. 公式への代入:
    $0.075 \pm 1.96 \sqrt{\frac{0.625 \times (1-0.625)}{2000} + \frac{0.550 \times (1-0.550)}{1500}}$

この式は、選択肢 の(ア)と一致します。


解答の根拠 (2) - (イ)の判断

次に、信頼区間の具体的な値を計算して「0」を含むか確認します。

  1. 根号内の計算
    $\sqrt{\frac{0.234375}{2000} + \frac{0.2475}{1500}} = \sqrt{0.0001171... + 0.000165} \approx \sqrt{0.0002821} \approx 0.0168$

  2. 誤差の限界の計算
    $1.96 \times 0.0168 \approx 0.0329$

  3. 信頼区間の算出

    • 下限: $0.075 - 0.0329 = 0.0421$
    • 上限: $0.075 + 0.0329 = 0.1079$

信頼区間は [0.0421, 0.1079] となります。


解答の根拠 (3) - 結論

  • 計算された信頼区間 [0.0421, 0.1079]「0」を含んでいません
  • これは、帰無仮説「差がない($p_1 - p_2 = 0$)」が棄却されることを意味します。
  • したがって、2つの比率には統計的に 有意な差 があると結論できます。

よって、(イ)にあてはまるのは 「変化したといえる」 です。

(ア)の式と(イ)の結論から、正解は選択肢 となります。

image.png

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?