【統計検定®︎2級対策】カイ二乗検定（独立性の検定）、母比率の信頼区間

Posted at 2025-12-21

以下の統計検定2級®︎対策動画で用いられているスライドの一部です。

統計検定®２級対策オリジナル問題であり、非公式です。
※統計検定®は一般財団法人統計質保証推進協会の登録商標です。

問題

あるマーケティング会社が、利用者の年代と最も頻繁に利用するSNSプラットフォームの関係を調査するため、600人を対象にアンケートを実施し、以下の分割表を得た。

分割表: 年代別SNS利用状況

年代	InstaVerse	ConnectSphere	ChitChat	行和
10代	80	20	10	110
20-30代	100	70	30	200
40-50代	40	80	50	170
60代以上	10	30	80	120
列和	230	200	170	600

このデータを用いて、年代と利用するSNSプラットフォームの間に 関連がない（独立である） という帰無仮説を検定したい。

解答

[1] 帰無仮説が正しいと仮定した場合の「10代」かつ「InstaVerse」のセルの期待度数として、最も近い値を次の①～⑤のうちから一つ選べ。

① 38.3　② 42.2　③ 45.1　④ 80.0　⑤ 110.0

[2] この独立性の検定で用いる$\chi^2$（カイ二乗）統計量の自由度として、正しいものを次の①～⑤のうちから一つ選べ。

① 2　② 3　③ 4　④ 6　⑤ 12

[3] 実際に$\chi^2$統計量を計算したところ、$\chi^2 = 11.50$ という値が得られた。自由度6のカイ二乗分布におけるパーセント点（上側確率α）は、$\chi^2_{0.10}(6) = 10.64$、$\chi^2_{0.05}(6) = 12.59$ である。この結果に関する解釈として、最も適切なものを次の①～⑤のうちから一つ選べ。

① 有意水準5%で有意であり、かつ有意水準10%でも有意である。
② 有意水準5%では有意であるが、有意水準10%では有意ではない。
③ 有意水準10%では有意であるが、有意水準5%では有意ではない。
④ 有意水準5%でも有意水準10%でも有意ではない。
⑤ 与えられた情報だけでは、有意性の判断はできない。

ポイント解説：カイ二乗検定（独立性の検定）

1. カイ二乗検定とは？

カイ二乗検定は、アンケート結果などで得られるカテゴリカルデータを扱うための統計手法です。

独立性の検定
- 2つのカテゴリカル変数に 関連があるか 、それとも 無関係（独立）か を判断するために使われます。
- 今回の問題では、「年代」と「利用SNS」が独立かどうか、つまり「年代によって利用するSNSに違いがあるのか、それとも偶然の差なのか」を検証します。

ポイント解説：カイ二乗検定（独立性の検定）

2. 「観測度数」と「期待度数」

検定の核心は、 観測度数 と 期待度数 の比較です。

観測度数
- 実際に調査して得られた、表の中の各セルの値です。
- 例: 10代でInstaVerseを使う人は80人。
期待度数
- 「もし2つの変数が完全に独立だったら、このセルには何人が入るはずか」という理論上の予測値です。

両者のズレが大きければ大きいほど、「独立だとは言えない、何か関連がある」と結論付けられます。

ポイント解説：カイ二乗検定（独立性の検定）

3. 期待度数と自由度の計算

期待度数の計算式
- 「全体の構成比が、各行・各列でも同じように現れるはずだ」という考えに基づきます。

$$
\text{期待度数} = \frac{(\text{その行の合計}) \times (\text{その列の合計})}{\text{全体の合計}}
$$

自由度の計算式
- 自由度とは、統計的な「自由さ」の度合いです。「自由に決められるセルの数」を意味します。

$$
\text{自由度} = (\text{行の数} - 1) \times (\text{列の数} - 1)
$$

ポイント解説：カイ二乗検定（独立性の検定）

4. 統計学における重要性

カイ二乗検定は、実社会の様々な場面で活用される非常に重要なツールです。

マーケティング
- 「広告Aと広告Bでは、購入率に差があるか？」
医療
- 「新薬とプラセボ（偽薬）では、回復率に差があるか？」
社会調査
- 「性別と支持政党に関連はあるか？」

カテゴリに分けられたデータ間の関連性を客観的な数値で評価し、それが 統計的に意味のある差なのか を判断する上で不可欠な手法です。

問題

分割表: 年代別SNS利用状況

年代	InstaVerse	ConnectSphere	ChitChat	行和
10代	80	20	10	110
20-30代	100	70	30	200
40-50代	40	80	50	170
60代以上	10	30	80	120
列和	230	200	170	600

このデータを用いて、年代と利用するSNSプラットフォームの間に 関連がない（独立である） という帰無仮説を検定したい。

解答の根拠 [1]

[1] 帰無仮説が正しいと仮定した場合の「10代」かつ「InstaVerse」のセルの期待度数として、最も近い値を次の①～⑤のうちから一つ選べ。

① 38.3　② 42.2　③ 45.1　④ 80.0　⑤ 110.0

期待度数は以下の式で計算します。
期待度数 = (行の合計 × 列の合計) / 全体の合計

「10代」の行の合計は 110
「InstaVerse」の列の合計は 230
全体の合計は 600

$$
\text{期待度数} = \frac{110 \times 230}{600} = \frac{25300}{600} = 42.166...
$$

最も近い値は 42.2 なので、正解は ② です。

解答の根拠 [2]

[2] この独立性の検定で用いる$\chi^2$（カイ二乗）統計量の自由度として、正しいものを次の①～⑤のうちから一つ選べ。

① 2　② 3　③ 4　④ 6　⑤ 12

自由度は以下の式で計算します。
自由度 = (行の数 - 1) × (列の数 - 1)

この分割表は 4行3列 です。

$$
\text{自由度} = (4 - 1) \times (3 - 1) = 3 \times 2 = 6
$$

したがって、正解は ④ です。

解答の根拠 [3]

[3] 実際に$\chi^2$統計量を計算したところ、$\chi^2 = 11.50$ という値が得られた。自由度6のカイ二乗分布におけるパーセント点（上側確率α）は、$\chi^2_{0.10}(6) = 10.64$、$\chi^2_{0.05}(6) = 12.59$ である。この結果に関する解釈として、最も適切なものを次の①～⑤のうちから一つ選べ。

① 有意水準5%で有意であり、かつ有意水準10%でも有意である。
② 有意水準5%では有意であるが、有意水準10%では有意ではない。
③ 有意水準10%では有意であるが、有意水準5%では有意ではない。
④ 有意水準5%でも有意水準10%でも有意ではない。
⑤ 与えられた情報だけでは、有意性の判断はできない。

検定では、計算した統計量と臨界値（基準値）を比較します。

計算された$\chi^2$値: 11.50
有意水準10%の臨界値: 10.64
有意水準5%の臨界値: 12.59
有意水準10%での判断: 11.50 > 10.64 → 10%水準で有意差あり 。
有意水準5%での判断: 11.50 < 12.59 → 5%水準では有意とは言えない 。

結論として、「有意水準10%では有意であるが、有意水準5%では有意ではない」となります。正解は ③ です。

問題

ある製薬会社が開発した新薬の効果を調べるため、臨床試験を行った。母集団における有効率（比率）$p$ の推定を考える。

[1] 900人の患者に新薬を投与したところ、108人に効果が見られた。この結果から母有効率$p$に対する信頼係数99%の信頼区間を求めたい。信頼区間を以下の式で構成するとき、A, B, Cに当てはまる数値の組合せとして最も適切なものを、次の①～⑤のうちから一つ選べ。

① A = 1.96, B = 0.12, C = 900　② A = 2.58, B = 0.12, C = 900
③ A = 2.58, B = 108, C = 900　④ A = 1.65, B = 0.12, C = 108
⑤ A = 2.58, B = 0.12, C = 108
$$
B \pm A \times \sqrt{\frac{B(1-B)}{C}}
$$

[2] 今後、同様の臨床試験を行う計画がある。母有効率$p$に対する信頼係数95%の信頼区間の幅が0.06以下になるようにするためには、最低何人の患者を調査対象とする必要があるか。最も近い値を次の①～⑤のうちから一つ選べ。ただし、過去の知見から、この種の薬の有効率は高くても20%を超えないことがわかっているものとする。

① 450人　② 550人　③ 690人　④ 820人　⑤ 960人

解答

① A = 1.96, B = 0.12, C = 900　② A = 2.58, B = 0.12, C = 900
③ A = 2.58, B = 108, C = 900　④ A = 1.65, B = 0.12, C = 108
⑤ A = 2.58, B = 0.12, C = 108

① 450人　② 550人　③ 690人　④ 820人　⑤ 960人

ポイント解説：母比率の信頼区間

1. 信頼区間とは？

選挙の出口調査の「支持率45%、誤差は±3%」のように、調査結果の不確実さを示すための区間です。

点推定
- サンプルの結果（標本比率）を、そのまま全体の推定値（母比率）とする方法。
区間推定
- 「 95%の確率で、真の母比率はこの範囲に入っているでしょう 」というように、幅を持たせた区間で推定する方法。この区間が 信頼区間 です。

私たちは一部の標本から全体（ 母集団 ）の様子を推測します。

ポイント解説：母比率の信頼区間

2. 信頼区間の構成要素

信頼区間は、標本比率 ± 誤差の許容範囲 という形で計算されます。

$$
\hat{p} \pm z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}
$$

$\hat{p}$: 標本比率 （有効だった人数 / 全体の人数）
$n$: 標本の大きさ （サンプルサイズ）
$z_{\alpha/2}$: 信頼係数 （信頼度によって決まる値）
- 信頼度95% → $z=1.96$
- 信頼度99% → $z=2.58$
$\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$: 標準誤差 （標本比率のばらつき）

ポイント解説：母比率の信頼区間

3. 必要なサンプルサイズの設計

調査を始める前に、「目標とする精度（信頼区間の幅）」を達成するために必要なサンプルサイズを逆算できます。

信頼区間の幅を狭く（精度を高く）したい場合：

サンプルサイズ $n$ を 大きくする
信頼度を 下げる （例: 99%→95%）

実用上は信頼度を固定し、必要なサンプルサイズを見積もることが多いです。

ポイント解説：母比率の信頼区間

4. 統計学における重要性

信頼区間は、統計的推定の根幹をなす概念です。

結果の信頼性評価
- 「内閣支持率40%」だけでなく、「信頼区間 [37%, 43%]」という情報で不確かさを客観的に伝えられます。
意思決定の支援
- 新製品の市場受容度調査で、信頼区間が十分に高ければ、発売に踏み切る判断材料になります。
効率的な調査計画
- 目標精度から必要なサンプルサイズを計算し、コストと精度のバランスをとることができます。

問題

ある製薬会社が開発した新薬の効果を調べるため、臨床試験を行った。母集団における有効率（比率）$p$ の推定を考える。

① A = 1.96, B = 0.12, C = 900　② A = 2.58, B = 0.12, C = 900
③ A = 2.58, B = 108, C = 900　④ A = 1.65, B = 0.12, C = 108
⑤ A = 2.58, B = 0.12, C = 108
$$
B \pm A \times \sqrt{\frac{B(1-B)}{C}}
$$

[2] 今後、同様の臨床試験を行う計画がある。母有効率$p$に対する信頼係数95%の信頼区間の幅が0.06以下になるようにするためには、最低何人の患者を調査対象とする必要があるか。最も近い値を次の①～⑤のうちから一つ選べ。

① 450人　② 550人　③ 690人　④ 820人　⑤ 960人

解答の根拠 [1]

[1] 信頼区間を以下の式で構成するとき、A, B, Cに当てはまる数値の組合せとして最も適切なものを、次の①～⑤のうちから一つ選べ。

① A = 1.96, B = 0.12, C = 900　② A = 2.58, B = 0.12, C = 900
③ A = 2.58, B = 108, C = 900　④ A = 1.65, B = 0.12, C = 108
⑤ A = 2.58, B = 0.12, C = 108

$$ B \pm A \times \sqrt{\frac{B(1-B)}{C}} $$

信頼区間の公式と比較します。

B: 標本比率 $\hat{p}$
A: 信頼係数 $z_{\alpha/2}$
C: 標本の大きさ $n$
C (標本の大きさ): 患者数は 900 人なので、$C=900$。
B (標本比率): 900人中108人に効果があったので、$B = \frac{108}{900} = 0.12$。
A (信頼係数): 信頼係数99%に対応する値は 2.58 なので、$A=2.58$。

これらの組合せは A=2.58, B=0.12, C=900 となり、正解は ② です。

解答の根拠 [2]

[2] 母有効率$p$に対する信頼係数95%の信頼区間の幅が0.06以下になるようにするためには、最低何人の患者を調査対象とする必要があるか。

① 450人　② 550人　③ 690人　④ 820人　⑤ 960人

必要なサンプルサイズ $n$ を求めます。まず、条件を整理します。

信頼区間の幅 $\le 0.06$
- 誤差の許容範囲 $E \le 0.03$ となります。
信頼係数95%
- 対応する $z$ 値は 1.96 です。
母比率 $p$ の推定
- 「高くても20%を超えない」という情報から、最も安全（保守的）な $p=0.2$ を用います。

解答の根拠 [2] - 計算

必要なサンプルサイズ $n$ の公式に値を代入します。

$$
n \ge \left( \frac{z_{\alpha/2}}{E} \right)^2 p(1-p)
$$

$$
n \ge \left( \frac{1.96}{0.03} \right)^2 \times 0.2 \times (1-0.2)
$$

$$
n \ge (65.333...)^2 \times 0.16
$$

$$
n \ge 4268.44... \times 0.16
$$

$$
n \ge 682.95...
$$

この条件を満たすためには、最低でも683人の患者が必要です。選択肢の中で最も近い値は 690人 なので、正解は ③ です。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up