以下の統計検定2級®︎対策動画で用いられているスライドの一部です。
統計検定®2級対策オリジナル問題であり、非公式です。
※統計検定®は一般財団法人統計質保証推進協会の登録商標です。
問題
ある調査機関が、全国の大学生の1週間の平均スマートフォン利用時間を調査するため、400人を無作為抽出した。その結果、標本平均は25.5時間、標本標準偏差は6.0時間であった。
(1) 標本平均の標準誤差(時間単位)として、次の ①〜⑤ のうちから最も適切なものを一つ選べ。
① 0.3 ② 0.6 ③ 1.5 ④ 6.0 ⑤ 20.0
(2) 全国の大学生の1週間の平均スマートフォン利用時間(母平均)を$\mu$とする。$\mu$の95%信頼区間として、最も適切なものを一つ選べ。ただし、標本サイズが大きいので正規分布で近似し、標準正規分布の上側2.5%点を1.96とする。
① [24.32, 26.68] ② [24.91, 26.09] ③ [25.01, 25.99] ④ [13.74, 37.26] ⑤ [25.20, 25.80]
(3) 次の記述 I〜III は、母平均$\mu$の推定および信頼区間に関するものである。
I. 調査で得られた標本平均(25.5時間)は、母平均$\mu$の不偏推定量である。
II. 99%信頼区間の幅は、95%信頼区間の幅よりも広い。
III. 調査対象者を400人から1600人に増やすと、同じ信頼度で計算した信頼区間の幅は、およそ半分になる。
① I のみ ② III のみ ③ I, II のみ ④ II, III のみ ⑤ I, II, III はすべて正しい。
解答
(1): ①, (2): ②, (3): ⑤
ポイント解説 (1/4): 標準誤差とは?
私たちが知りたいのは母集団(全国の大学生)の平均ですが、全員調査は不可能です。
そこで、標本(400人)から母集団の性質を推測します。
しかし、どの標本を選ぶかによって 標本平均 はばらつきます。この ばらつきの大きさ を示す指標が 標準誤差 です。
$$
SE = \frac{s}{\sqrt{n}}
$$
- $s$: 標本標準偏差
- $n$: 標本サイズ
ポイント解説 (2/4): 標準誤差の重要性
-
なぜ重要か?
標準誤差が小さいほど、手元の標本平均が 母平均 の近くにあると期待でき、推定の 精度が高い ことを意味します。 -
確率変数とその分布
ここでの確率変数は 標本平均 $\bar{X}$ です。 -
中心極限定理
標本サイズ $n$ が大きい場合、標本平均 $\bar{X}$ の分布は、母集団がどんな分布でも 正規分布 に近似できます。
ポイント解説 (3/4): 信頼区間とは?
標本平均は母平均の 点推定 ですが、ピッタリ一致することは稀です。そこで、幅を持たせた 区間推定 を行います。これが 信頼区間 です。
95%信頼区間とは?
「同様の調査を100回行った場合、そのうち約95回は、算出された区間内に真の母平均が含まれる」という意味。
$$
\text{信頼区間} = \bar{x} \pm (\text{信頼度に応じた値}) \times SE
$$
-
なぜ重要か?
推定の 精度や誤差の範囲を明確に伝えられる ため、科学的な報告や意思決定で極めて重要です。
ポイント解説 (4/4): 推定と信頼区間の性質
-
I. 不偏推定量
標本平均は、長い目で見るとその期待値が真の母平均と一致します。これを 不偏推定量 と呼び、系統的なズレ(バイアス)がない良い推定量です。 -
II. 信頼度と区間の幅
信頼度を高くする(例: 95%→99%)と、より確実性が求められるため、信頼区間の 幅は広く なります。 -
III. 標本サイズと区間の幅
標本サイズ $n$ を大きくすると、情報が増え、推定精度が上がります。$n$ が 4倍 になると、幅は $\frac{1}{\sqrt{4}} = \frac{1}{2}$、つまり 半分 になります。
問題(再掲)
ある調査機関が、全国の大学生の1週間の平均スマートフォン利用時間を調査するため、400人を無作為抽出した。その結果、標本平均は25.5時間、標本標準偏差は6.0時間であった。
(1) 標本平均の標準誤差(時間単位)を求めよ。
(2) 母平均$\mu$の95%信頼区間を求めよ。(上側2.5%点は1.96)
(3) 記述 I〜III の正誤を判断せよ。
I. 標本平均は母平均の不偏推定量である。
II. 99%信頼区間の幅は、95%信頼区間の幅よりも広い。
III. 標本サイズを4倍にすると、信頼区間の幅はおよそ半分になる。
解答の根拠
(1) 標準誤差の計算
- 標本標準偏差 $s = 6.0$, 標本サイズ $n = 400$
- $SE = \frac{s}{\sqrt{n}} = \frac{6.0}{\sqrt{400}} = \frac{6.0}{20} = 0.3$
- よって、正解は ① 0.3 です。
(2) 95%信頼区間の計算
- $25.5 \pm 1.96 \times 0.3 = 25.5 \pm 0.588$
- 区間は $[24.912, 26.088]$ となり、正解は ② [24.91, 26.09] です。
(3) 記述の正誤判断
- I: 標本平均は母平均の 不偏推定量 です。 正しい。
- II: 信頼度を上げると区間は 広く なります。 正しい。
- III: 標本サイズが4倍になると、幅は $\frac{1}{\sqrt{4}}$ 倍( 半分 )になります。 正しい。
- よって、I, II, III はすべて正しく、正解は ⑤ です。
問題
ある市内の文系学部と理系学部に通う大学生の1日の平均学習時間を比較するため、文系学部から250人、理系学部から201人を無作為に抽出して調査を行った。両学部の学習時間の母分散が等しいかどうかを検定するため、理系学部の不偏分散を文系学部の不偏分散で割ってF統計量を計算した。このF統計量が従うF分布の自由度はいくらか。次の ①〜⑤ のうちから適切なものを一つ選べ。
① (250, 201)
② (249, 200)
③ (200, 249)
④ (201, 250)
⑤ (449, 1)
解答
正解: ③ (200, 249)
ポイント解説 (1/3): F検定とは?
F検定 は、2つのグループの 母集団の分散が等しいか(等分散性) どうかを検証する手法です。
- 多くの統計手法(例: t検定)では、等分散性が前提条件となります。
- 2つの標本から計算した 不偏分散 の比( F統計量 )を計算し、この比が1からどれだけ離れているかで判断します。
仮説検定の枠組み
- 帰無仮説 $H_0$: 2つの母分散は等しい ($\sigma_1^2 = \sigma_2^2$)
- 対立仮説 $H_1$: 2つの母分散は等しくない ($\sigma_1^2 \neq \sigma_2^2$)
ポイント解説 (2/3): F統計量とF分布
F検定で用いる確率変数は、2つの不偏分散の比である F統計量 です。
$$
F = \frac{U_1}{U_2}
$$
- $U_1, U_2$: 2つの標本から計算された不偏分散
このF統計量は、帰無仮説のもとで F分布 という確率分布に従います。F分布の形は、2つの 自由度 によって決まります。
ポイント解説 (3/3): 自由度とは?
自由度 とは、統計量を計算するために使われた、独立な(自由に動ける)情報の数です。
- 標本サイズ $n$ の標本から計算される不偏分散の自由度は $n-1$ となります。
- なぜなら、偏差 $\sum(X_i - \bar{X}) = 0$ という制約が1つあるためです。
F分布の自由度は、 (分子の自由度, 分母の自由度) のペアで表記されます。
- なぜ重要か? 正しい自由度を指定しないと、検定の「ものさし」であるF分布の形が定まらず、正しい結論を導けません。
問題(再掲)
文系学部(250人)、理系学部(201人)の母分散が等しいか検定する。
「 理系学部 の不偏分散」を「 文系学部 の不偏分散」で割ってF統計量を計算した。
このF統計量が従うF分布の自由度はいくらか。
① (250, 201)
② (249, 200)
③ (200, 249)
④ (201, 250)
⑤ (449, 1)
解答の根拠
-
F統計量の定義を確認
- 分子: 理系学部 の不偏分散
- 分母: 文系学部 の不偏分散
-
それぞれの自由度を計算(自由度 = 標本サイズ - 1)
- 分子の自由度: 理系学部 $201 - 1 = 200$
- 分母の自由度: 文系学部 $250 - 1 = 249$
-
F分布の自由度を決定
- F分布の自由度は (分子の自由度, 分母の自由度) の順で表記します。
- したがって、自由度は (200, 249) となります。
よって、正解は ③ です。
問題
あるコールセンターでは、10分間に平均2件の電話がかかってくる。単位時間あたりにかかってくる電話の件数はポアソン分布に従うものとする。このコールセンターで、ある30分間に電話が1件もかかってこない確率はいくらか。次の ①〜⑤ のうちから最も適切なものを一つ選べ。ただし、必要であれば $e^{-6} \approx 0.0025$ を用いよ。
① 0.0025
② 0.1353
③ 0.1494
④ 0.8647
⑤ 0.9975
解答
正解: ①
ポイント解説 (1/3): ポアソン分布とは?
ポアソン分布 は、特定の時間や空間で「まれに」起こる事象の発生回数をモデル化する確率分布です。
- 適用例 - 1時間にある交差点を通過する車両の台数 - ウェブサイトへの1分間あたりのアクセス数 - 1ページあたりの誤植の数
- 適用条件 - 事象は互いに独立に発生する - 平均発生率は一定である
ポイント解説 (2/3): ポアソン分布の確率
この問題の確率変数は「ある時間内にかかってくる電話の件数 $X$」です。
ポアソン分布は、平均発生回数を意味するパラメータ $\lambda$ を一つだけ持ちます。
発生回数が $k$ 回となる確率は、以下の確率質量関数で計算されます。
$$
P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!} \quad (k = 0, 1, 2, \dots)
$$
- なぜ重要か? 需要予測、品質管理、リスク管理など、実社会の様々な場面で現象を数学的にモデル化し、計画立案に役立てる強力なツールです。
ポイント解説 (3/3): パラメータ$\lambda$の調整
ポアソン分布で最も重要なのは、 考えている期間に合わせて平均発生回数 $\lambda$ を正しく設定する ことです。
- 今回の問題では、「10分あたり」の平均発生率が基準となっています。
- これを「30分あたり」の平均発生回数に変換する必要があります。
- 平均発生率が時間あたりで一定ならば、λ は期間の長さに比例して調整できます。
$$
\lambda_{30\text{分}} = \lambda_{10\text{分}} \times \frac{30\text{分}}{10\text{分}}
$$
問題(再掲)
あるコールセンターでは、 10分間に平均2件 の電話がかかってくる。これはポアソン分布に従う。
このコールセンターで、ある 30分間 に電話が 1件もかかってこない確率 はいくらか。
($e^{-6} \approx 0.0025$ を使用)
① 0.0025
② 0.1353
③ 0.1494
④ 0.8647
⑤ 0.9975
解答の根拠
-
対象期間における平均発生回数 $\lambda$ を求める
- 基準: 「 10分間 に平均 2件 」
- 対象期間: 「 30分間 」
- 30分は10分の3倍なので、この期間の平均発生回数 $\lambda$ は、
$$ \lambda = 2 \text{件} \times \frac{30 \text{分}}{10 \text{分}} = 6 \text{件} $$
-
ポアソン分布の式で確率を計算する
- 「1件もかかってこない」確率なので、$k=0$ の場合を計算します。
- $P(X=0) = \frac{e^{-6} \cdot 6^0}{0!} = \frac{e^{-6} \cdot 1}{1} = e^{-6}$
-
与えられた近似値を使う
- 問題文より $e^{-6} \approx 0.0025$ なので、
- $P(X=0) \approx 0.0025$
よって、正解は ① です。