以下の統計検定2級®︎対策動画で用いられているスライドの一部です。
統計検定®2級対策オリジナル問題であり、非公式です。
※統計検定®は一般財団法人統計質保証推進協会の登録商標です。
問題
あるベーカリーで無作為に抽出した食パン100個の重量を測定し、ヒストグラムを作成した。このヒストグラムは、階級の幅を5gとし、例えば(380, 385]は380gを超え385g以下の階級を表す。
このヒストグラムに関する次の記述a、b、cについて、その正誤を判断せよ。
a. この食パンの重量の平均値は400gより大きいと推定される。
b. この食パンの重量の中央値は、400gを超え405g以下の階級に含まれる。
c. 395g以下の重量であった食パンの割合は2割である。
これらの記述について、次の選択肢①~⑤のうちから最も適切なものを一つ選べ。
① aのみ正しい ② bのみ正しい ③ cのみ正しい ④ aとbのみ正しい ⑤ a, b, cすべて正しい
解答
⑤ a, b, cすべて正しい
問題におけるポイント解説
この問題は、統計学の基本である 記述統計 、特に ヒストグラムの読解能力 を問うています。
ヒストグラムから、データの「平均値」「中央値」「割合」といった基本的な情報を読み取るスキルが求められます。
1. ヒストグラムからの平均値の推定
ヒストグラムは元の個々のデータ値を階級にまとめたもののため、正確な平均値は計算できません。
しかし、 「各階級に含まれるデータは、すべてその階級の中央の値(階級値)をとる」 と仮定することで、平均値の近似値を計算できます。
-
階級値: 階級の真ん中の値。
(例: (400, 405]の階級値は $(400+405)/2 = 402.5$ g) -
計算方法:
$$
\frac{(各階級の階級値 \times その階級の度数) の総和}{全体の度数}
$$
2. ヒストグラムからの中央値の特定
中央値(メジアン) は、データを小さい順に並べたときに、ちょうど真ん中に位置する値です。
ヒストグラムから中央値を見つけるには、 累積度数 (度数を小さい階級から順に足し合わせたもの)を利用します。
-
手順:
- 全体の度数(サンプルサイズ)を確認します。
- 真ん中の順位(総度数100なら、50番目と51番目の間)を特定します。
- 累積度数を計算し、真ん中の順位のデータがどの階級に含まれるかを探します。
なぜこれらの概念が重要なのか?
ヒストグラムは、データが どのような形をしているか(分布) を視覚的に把握するための最も強力なツールの一つです。
-
データの全体像を把握
- 代表値(平均値や中央値)はデータの中心傾向を示します。ヒストグラムと合わせることで、分布が対称か、あるいは偏っている(歪んでいる)かが一目でわかります。
-
品質管理や意思決定への応用
- 製品の重量管理などで、規格外れの製品数や、重量が目標値を中心に安定しているかを判断できます。
-
データ分析の第一歩
- 外れ値の存在や分布の形状を把握し、その後の適切な分析手法を選択するための基本となります。
解答の根拠
問題の再掲
あるベーカリーで無作為に抽出した食パン100個の重量を測定し、ヒストグラムを作成した。
記述
a. この食パンの重量の平均値は400gより大きいと推定される。
b. この食パンの重量の中央値は、400gを超え405g以下の階級に含まれる。
c. 395g以下の重量であった食パンの割合は2割である。
選択肢: ① aのみ正しい ② bのみ正しい ③ cのみ正しい ④ aとbのみ正しい ⑤ a, b, cすべて正しい
解答の根拠:a. 平均値の推定
a. この食パンの重量の平均値は400gより大きいと推定される。
各階級の階級値と度数から平均の近似値を計算します。
| 階級 (g] | 階級値 | 度数 |
|---|---|---|
| (380, 385] | 382.5 | 2 |
| (385, 390] | 387.5 | 5 |
| (390, 395] | 392.5 | 13 |
| (395, 400] | 397.5 | 20 |
| (400, 405] | 402.5 | 25 |
| (405, 410] | 407.5 | 18 |
| (410, 415] | 412.5 | 12 |
| (415, 420] | 417.5 | 5 |
(階級値 × 度数)の合計は40190です。
$$
(382.5 \times 2) + \dots + (417.5 \times 5) = 40190
$$
総度数は100なので、平均値は、
$$
\frac{40190}{100} = 401.9 \text{g}
$$
401.9gは400gより大きいので、
記述 aは正しい です。
解答の根拠:b. 中央値の特定
b. この食パンの重量の中央値は、400gを超え405g以下の階級に含まれる。
総度数は100です。中央値は50番目と51番目の値の平均値です。
累積度数で、この順位のデータが含まれる階級を探します。
- 385gまで: 2
- 390gまで: 2 + 5 = 7
- 395gまで: 7 + 13 = 20
- 400gまで: 20 + 20 = 40
- 405gまで: 40 + 25 = 65
400gまでの累積度数が40なので、50番目と51番目のデータは次の階級 (400, 405] に含まれます。
したがって、記述 bは正しい です。
解答の根拠:c. 割合の計算
c. 395g以下の重量であった食パンの割合は2割である。
395g以下の階級の度数を合計します。
- (380, 385]: 2個
- (385, 390]: 5個
- (390, 395]: 13個
合計度数は $2 + 5 + 13 = 20$ 個です。
総度数が100個なので、その割合は、
$$
\frac{20}{100} = 0.2
$$
0.2は2割なので、記述 cは正しい です。
結論
以上より、a, b, cのすべてが正しいので、正解は ⑤ となります。
問題
ある都市の市民の年間所得に関する調査データをまとめたところ、次の度数分布表が得られた。
| 年間所得階級 | 相対度数 | 累積相対度数 |
|---|---|---|
| 200万円未満 | 0.08 | 0.08 |
| 200~400万円未満 | 0.25 | 0.33 |
| 400~600万円未満 | 0.30 | 0.63 |
| 600~800万円未満 | 0.20 | 0.83 |
| 800~1000万円未満 | 0.10 | 0.93 |
| 1000~1500万円未満 | 0.05 | 0.98 |
| 1500万円以上 | 0.02 | 1.00 |
[1] この度数分布表から、中央値が含まれる階級として、次の①~⑤のうちから最も適切なものを一つ選べ。
① 200万円未満, ② 200~400万円未満, ③ 400~600万円未満, ④ 600~800万円未満, ⑤ 800~1000万円未満
[2] この分布の形状と、平均と中央値の関係について述べた記述として、次の①~⑤のうちから最も適切なものを一つ選べ。
① 左に裾が長い分布であり、平均は中央値より小さい。
② 左に裾が長い分布であり、平均は中央値より大きい。
③ 右に裾が長い分布であり、平均は中央値より小さい。
④ 右に裾が長い分布であり、平均は中央値より大きい。
⑤ 対称な分布に近く、平均と中央値はほぼ等しい。
解答
[1] ③
[2] ④
問題におけるポイント解説
この問題は、 度数分布表 からデータの特性を読み解く能力を試すものです。
特に、 中央値の特定 と、 分布の歪み が平均値と中央値に与える影響を理解しているかが問われます。
1. 累積相対度数と中央値
中央値は、データを小さい順に並べたときに真ん中にくる値で、累積相対度数が 0.5 (50%) となる点です。
度数分布表から中央値が含まれる階級を探すには、 累積相対度数が初めて0.5を超える階級 を見つければOKです。
2. 分布の歪みと代表値(平均値・中央値)の関係
データ分布の形は、必ずしも左右対称ではありません。どちらか一方に裾が長く伸びた、偏った(歪んだ)分布になることがよくあります。
-
右に裾が長い分布(右に歪んだ分布)
- 形状: グラフの右側(値が大きい方)に裾が長く伸びる。
- 代表値: 平均値 > 中央値
-
左に裾が長い分布(左に歪んだ分布)
- 形状: グラフの左側(値が小さい方)に裾が長く伸びる。
- 代表値: 平均値 < 中央値
-
対称な分布
- 形状: 左右対称の釣鐘型など。
- 代表値: 平均値 ≒ 中央値
右に裾が長い分布
-
形状
- グラフの右側(値が大きい方)に裾が長く伸びる。
- 所得分布や資産分布など、一部に極端に大きい値が存在する場合によく見られる。
-
代表値の関係
- 平均値は極端に大きい値に引っ張られて、中央値よりも大きくなる傾向がある。
- 平均値 > 中央値
左に裾が長い分布
-
形状
- グラフの左側(値が小さい方)に裾が長く伸びる。
- 満点が近い簡単なテストの点数分布などで見られる。
-
代表値の関係
- 平均値は極端に小さい値に引っ張られて、中央値よりも小さくなる傾向がある。
- 平均値 < 中央値
なぜこれらの概念が重要なのか?
-
データの「中心」を正しく捉える
- 平均値は外れ値に弱い欠点があります。歪んだデータでは、中央値の方が実態に近い「中心」を示す代表値として機能します。
-
データ背景の理解
- 分布の歪みは、データが生成された背景に関する重要な手がかりを与えます。(例: 所得分布が右に歪むのは、社会に少数ながら高所得者が存在するため)
-
分析手法の選択
- 多くの統計的検定はデータの正規分布を前提とします。分布の形状を把握することは、適切な分析アプローチを選択するための第一歩です。
解答の根拠
問題の再掲
| 年間所得階級 | 相対度数 | 累積相対度数 |
|---|---|---|
| 200万円未満 | 0.08 | 0.08 |
| 200~400万円未満 | 0.25 | 0.33 |
| 400~600万円未満 | 0.30 | 0.63 |
| 600~800万円未満 | 0.20 | 0.83 |
| ... | ... | ... |
[1] 中央値が含まれる階級
[2] 分布の形状と、平均と中央値の関係
解答の根拠:[1] 中央値が含まれる階級
中央値は、累積相対度数が0.5となる点を含む階級にあります。
- 「200~400万円未満」の階級が終わる時点で、累積相対度数は 0.33 (まだ0.5未満)。
- 次の「400~600万円未満」の階級が終わる時点で、累積相対度数は 0.63 (ここで初めて0.5を超える)。
したがって、中央値は 「400~600万円未満」 の階級に含まれます。
よって、正解は ③ です。
解答の根拠:[2] 分布の形状と平均・中央値の関係
1. 分布の形状を推測
- 相対度数が最も高い(データが最も集中している)のは、「400~600万円未満」の0.30です。ここが分布の山の頂上と考えられます。
- この頂上より所得が高い階級(600万円以上)に、度数は低いながらもデータが広く存在しています。
- これは、一部の高所得者が分布の右側の裾を長く伸ばしている 「右に裾が長い分布」 であることを意味します。
2. 平均と中央値の関係を判断
- 右に裾が長い分布では、一部の極端に大きい値に平均値が引っ張られて大きくなる。
- 中央値は順位で決まるため、端の極端な値の影響を受けにくいです。
- その結果、 「平均値 > 中央値」 という関係になります。
以上より、正解は ④ です。
問題
ある工場の生産ラインでは、1時間に発生する製品の欠陥数は、平均 $\lambda=4$ のポアソン分布に従うことが知られている。ある日、8時間にわたって欠陥数を記録したところ、最初の7時間の記録は 3, 5, 2, 6, 4, 5, 3 個であった。8時間全体の1時間あたりの平均欠陥数が、母平均である4個以上になるためには、8時間目に記録される欠陥数は最低何個必要か。次の①~⑤のうちから正しいものを一つ選べ。
① 1個
② 2個
③ 3個
④ 4個
⑤ 5個
解答
④ 4個
問題におけるポイント解説
この問題は、統計学の最も基本的な概念である 「平均値」 の定義を理解し、それを使って簡単な 不等式を立てて解く 能力を問うています。
- 平均値の定義
- 不等式への応用
- 問題文の読解
1. 平均値 & 2. 不等式への応用
平均値とは
$$
\text{平均値} = \frac{\text{データの合計}}{\text{データの個数}}
$$
不等式への応用
この問題の核心は、「平均が〇〇以上になる」という文章を、数式(不等式)に変換することです。
「8時間の平均欠陥数が4個以上」
これを数式に変換すると...
$$
\frac{\text{8時間の合計欠陥数}}{8} \ge 4
$$
3. 問題文の読解
問題文には「ポアソン分布」という専門用語が登場しますが、これは問題の背景設定を説明しているに過ぎません。
この問題の計算自体は、ポアソン分布の知識がなくても、平均値の定義さえ知っていれば解くことができます。
統計の問題では、このように 計算に直接必要のない情報と、必要な情報を見分ける読解力 も重要になります。
なぜこの概念が重要なのか?
-
データ要約の基本
- 平均値は、データセット全体の特徴をたった一つの数値で要約する「代表値」として、最も広く使われます。
-
推測統計学の基礎
- 手元の標本(サンプル)から計算した「標本平均」は、母集団全体の平均(母平均)を推測するための重要な手がかりとなります。
-
実社会での目標設定と評価
- 「テストの平均点を60点以上にする」など、目標設定や達成度の評価に平均値は欠かせません。この問題のように、目標達成のために「あとどれくらい必要か」を計算するスキルは、論理的思考の基礎となります。
解答の根拠
問題の再掲
8時間全体の1時間あたりの平均欠陥数が、母平均である4個以上になるためには、8時間目に記録される欠陥数は最低何個必要か。
- 観測時間: 8時間
- 目標平均: 4個/時間 以上
- 7時間分の記録: 3, 5, 2, 6, 4, 5, 3 個
解答の根拠:計算プロセス
-
最初の7時間の合計欠陥数を計算する
$$
3 + 5 + 2 + 6 + 4 + 5 + 3 = 28 \text{個}
$$ -
未知数を設定し、8時間全体の合計を式で表す
8時間目に記録される欠陥数を $x$ 個とします。
8時間全体の合計欠陥数は $28 + x$ 個となります。 -
平均値の条件から不等式を立てる
8時間の平均が4以上になるという条件なので、
$$
\frac{28 + x}{8} \ge 4
$$
解答の根拠:計算プロセス
-
不等式を解く
$$
\frac{28 + x}{8} \ge 4
$$
両辺に8を掛ける:
$$
28 + x \ge 32
$$
両辺から28を引く:
$$
x \ge 32 - 28
$$
$$
x \ge 4
$$
この結果は、8時間目の欠陥数が4個以上であれば良いことを示しています。
「最低何個必要か」と問われているので、答えは4個です。よって、正解は ④ となります。



