0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【統計検定®︎2級対策】記述統計オリジナル演習問題01

0
Posted at

以下の統計検定2級®︎対策動画で用いられているスライドの一部です。

統計検定®2級対策オリジナル問題であり、非公式です。
※統計検定®は一般財団法人統計質保証推進協会の登録商標です。


問題

あるベーカリーで無作為に抽出した食パン100個の重量を測定し、ヒストグラムを作成した。このヒストグラムは、階級の幅を5gとし、例えば(380, 385]は380gを超え385g以下の階級を表す。

image.png


このヒストグラムに関する次の記述a、b、cについて、その正誤を判断せよ。

a. この食パンの重量の平均値は400gより大きいと推定される。
b. この食パンの重量の中央値は、400gを超え405g以下の階級に含まれる。
c. 395g以下の重量であった食パンの割合は2割である。

これらの記述について、次の選択肢①~⑤のうちから最も適切なものを一つ選べ。

① aのみ正しい ② bのみ正しい ③ cのみ正しい ④ aとbのみ正しい ⑤ a, b, cすべて正しい


解答

⑤ a, b, cすべて正しい


問題におけるポイント解説

この問題は、統計学の基本である 記述統計 、特に ヒストグラムの読解能力 を問うています。

ヒストグラムから、データの「平均値」「中央値」「割合」といった基本的な情報を読み取るスキルが求められます。


1. ヒストグラムからの平均値の推定

ヒストグラムは元の個々のデータ値を階級にまとめたもののため、正確な平均値は計算できません。

しかし、 「各階級に含まれるデータは、すべてその階級の中央の値(階級値)をとる」 と仮定することで、平均値の近似値を計算できます。

  • 階級値: 階級の真ん中の値。
    (例: (400, 405]の階級値は $(400+405)/2 = 402.5$ g)

  • 計算方法:
    $$
    \frac{(各階級の階級値 \times その階級の度数) の総和}{全体の度数}
    $$


2. ヒストグラムからの中央値の特定

中央値(メジアン) は、データを小さい順に並べたときに、ちょうど真ん中に位置する値です。

ヒストグラムから中央値を見つけるには、 累積度数 (度数を小さい階級から順に足し合わせたもの)を利用します。

  • 手順:
    1. 全体の度数(サンプルサイズ)を確認します。
    2. 真ん中の順位(総度数100なら、50番目と51番目の間)を特定します。
    3. 累積度数を計算し、真ん中の順位のデータがどの階級に含まれるかを探します。

なぜこれらの概念が重要なのか?

ヒストグラムは、データが どのような形をしているか(分布) を視覚的に把握するための最も強力なツールの一つです。

  • データの全体像を把握

    • 代表値(平均値や中央値)はデータの中心傾向を示します。ヒストグラムと合わせることで、分布が対称か、あるいは偏っている(歪んでいる)かが一目でわかります。
  • 品質管理や意思決定への応用

    • 製品の重量管理などで、規格外れの製品数や、重量が目標値を中心に安定しているかを判断できます。
  • データ分析の第一歩

    • 外れ値の存在や分布の形状を把握し、その後の適切な分析手法を選択するための基本となります。

解答の根拠

問題の再掲
あるベーカリーで無作為に抽出した食パン100個の重量を測定し、ヒストグラムを作成した。

image.png

記述
a. この食パンの重量の平均値は400gより大きいと推定される。
b. この食パンの重量の中央値は、400gを超え405g以下の階級に含まれる。
c. 395g以下の重量であった食パンの割合は2割である。

選択肢: ① aのみ正しい ② bのみ正しい ③ cのみ正しい ④ aとbのみ正しい ⑤ a, b, cすべて正しい


解答の根拠:a. 平均値の推定

a. この食パンの重量の平均値は400gより大きいと推定される。


各階級の階級値と度数から平均の近似値を計算します。

階級 (g] 階級値 度数
(380, 385] 382.5 2
(385, 390] 387.5 5
(390, 395] 392.5 13
(395, 400] 397.5 20
(400, 405] 402.5 25
(405, 410] 407.5 18
(410, 415] 412.5 12
(415, 420] 417.5 5

(階級値 × 度数)の合計は40190です。
$$
(382.5 \times 2) + \dots + (417.5 \times 5) = 40190
$$
総度数は100なので、平均値は、
$$
\frac{40190}{100} = 401.9 \text{g}
$$
401.9gは400gより大きいので、
記述 aは正しい です。


解答の根拠:b. 中央値の特定

b. この食パンの重量の中央値は、400gを超え405g以下の階級に含まれる。

総度数は100です。中央値は50番目と51番目の値の平均値です。
累積度数で、この順位のデータが含まれる階級を探します。

  • 385gまで: 2
  • 390gまで: 2 + 5 = 7
  • 395gまで: 7 + 13 = 20
  • 400gまで: 20 + 20 = 40
  • 405gまで: 40 + 25 = 65

400gまでの累積度数が40なので、50番目と51番目のデータは次の階級 (400, 405] に含まれます。
したがって、記述 bは正しい です。


解答の根拠:c. 割合の計算

c. 395g以下の重量であった食パンの割合は2割である。

395g以下の階級の度数を合計します。

  • (380, 385]: 2個
  • (385, 390]: 5個
  • (390, 395]: 13個

合計度数は $2 + 5 + 13 = 20$ 個です。
総度数が100個なので、その割合は、
$$
\frac{20}{100} = 0.2
$$
0.2は2割なので、記述 cは正しい です。


結論

以上より、a, b, cのすべてが正しいので、正解は となります。


問題

ある都市の市民の年間所得に関する調査データをまとめたところ、次の度数分布表が得られた。

年間所得階級 相対度数 累積相対度数
200万円未満 0.08 0.08
200~400万円未満 0.25 0.33
400~600万円未満 0.30 0.63
600~800万円未満 0.20 0.83
800~1000万円未満 0.10 0.93
1000~1500万円未満 0.05 0.98
1500万円以上 0.02 1.00

[1] この度数分布表から、中央値が含まれる階級として、次の①~⑤のうちから最も適切なものを一つ選べ。
① 200万円未満, ② 200~400万円未満, ③ 400~600万円未満, ④ 600~800万円未満, ⑤ 800~1000万円未満

[2] この分布の形状と、平均と中央値の関係について述べた記述として、次の①~⑤のうちから最も適切なものを一つ選べ。
① 左に裾が長い分布であり、平均は中央値より小さい。
② 左に裾が長い分布であり、平均は中央値より大きい。
③ 右に裾が長い分布であり、平均は中央値より小さい。
④ 右に裾が長い分布であり、平均は中央値より大きい。
⑤ 対称な分布に近く、平均と中央値はほぼ等しい。


解答

[1]

[2]


問題におけるポイント解説

この問題は、 度数分布表 からデータの特性を読み解く能力を試すものです。

特に、 中央値の特定 と、 分布の歪み が平均値と中央値に与える影響を理解しているかが問われます。


1. 累積相対度数と中央値

中央値は、データを小さい順に並べたときに真ん中にくる値で、累積相対度数が 0.5 (50%) となる点です。

度数分布表から中央値が含まれる階級を探すには、 累積相対度数が初めて0.5を超える階級 を見つければOKです。


2. 分布の歪みと代表値(平均値・中央値)の関係

データ分布の形は、必ずしも左右対称ではありません。どちらか一方に裾が長く伸びた、偏った(歪んだ)分布になることがよくあります。

  • 右に裾が長い分布(右に歪んだ分布)

    • 形状: グラフの右側(値が大きい方)に裾が長く伸びる。
    • 代表値: 平均値 > 中央値
  • 左に裾が長い分布(左に歪んだ分布)

    • 形状: グラフの左側(値が小さい方)に裾が長く伸びる。
    • 代表値: 平均値 < 中央値
  • 対称な分布

    • 形状: 左右対称の釣鐘型など。
    • 代表値: 平均値 ≒ 中央値

右に裾が長い分布

  • 形状

    • グラフの右側(値が大きい方)に裾が長く伸びる。
    • 所得分布や資産分布など、一部に極端に大きい値が存在する場合によく見られる。
  • 代表値の関係

    • 平均値は極端に大きい値に引っ張られて、中央値よりも大きくなる傾向がある。
    • 平均値 > 中央値

image.png


左に裾が長い分布

  • 形状

    • グラフの左側(値が小さい方)に裾が長く伸びる。
    • 満点が近い簡単なテストの点数分布などで見られる。
  • 代表値の関係

    • 平均値は極端に小さい値に引っ張られて、中央値よりも小さくなる傾向がある。
    • 平均値 < 中央値

image.png


なぜこれらの概念が重要なのか?

  • データの「中心」を正しく捉える

    • 平均値は外れ値に弱い欠点があります。歪んだデータでは、中央値の方が実態に近い「中心」を示す代表値として機能します。
  • データ背景の理解

    • 分布の歪みは、データが生成された背景に関する重要な手がかりを与えます。(例: 所得分布が右に歪むのは、社会に少数ながら高所得者が存在するため)
  • 分析手法の選択

    • 多くの統計的検定はデータの正規分布を前提とします。分布の形状を把握することは、適切な分析アプローチを選択するための第一歩です。

解答の根拠

問題の再掲

年間所得階級 相対度数 累積相対度数
200万円未満 0.08 0.08
200~400万円未満 0.25 0.33
400~600万円未満 0.30 0.63
600~800万円未満 0.20 0.83
... ... ...

[1] 中央値が含まれる階級
[2] 分布の形状と、平均と中央値の関係


解答の根拠:[1] 中央値が含まれる階級

中央値は、累積相対度数が0.5となる点を含む階級にあります。

  • 「200~400万円未満」の階級が終わる時点で、累積相対度数は 0.33 (まだ0.5未満)。
  • 次の「400~600万円未満」の階級が終わる時点で、累積相対度数は 0.63 (ここで初めて0.5を超える)。

したがって、中央値は 「400~600万円未満」 の階級に含まれます。
よって、正解は です。


解答の根拠:[2] 分布の形状と平均・中央値の関係

1. 分布の形状を推測

  • 相対度数が最も高い(データが最も集中している)のは、「400~600万円未満」の0.30です。ここが分布の山の頂上と考えられます。
  • この頂上より所得が高い階級(600万円以上)に、度数は低いながらもデータが広く存在しています。
  • これは、一部の高所得者が分布の右側の裾を長く伸ばしている 「右に裾が長い分布」 であることを意味します。

2. 平均と中央値の関係を判断

  • 右に裾が長い分布では、一部の極端に大きい値に平均値が引っ張られて大きくなる。
  • 中央値は順位で決まるため、端の極端な値の影響を受けにくいです。
  • その結果、 「平均値 > 中央値」 という関係になります。

以上より、正解は です。


問題

ある工場の生産ラインでは、1時間に発生する製品の欠陥数は、平均 $\lambda=4$ のポアソン分布に従うことが知られている。ある日、8時間にわたって欠陥数を記録したところ、最初の7時間の記録は 3, 5, 2, 6, 4, 5, 3 個であった。8時間全体の1時間あたりの平均欠陥数が、母平均である4個以上になるためには、8時間目に記録される欠陥数は最低何個必要か。次の①~⑤のうちから正しいものを一つ選べ。

① 1個
② 2個
③ 3個
④ 4個
⑤ 5個


解答

④ 4個


問題におけるポイント解説

この問題は、統計学の最も基本的な概念である 「平均値」 の定義を理解し、それを使って簡単な 不等式を立てて解く 能力を問うています。

  1. 平均値の定義
  2. 不等式への応用
  3. 問題文の読解

1. 平均値 & 2. 不等式への応用

平均値とは
$$
\text{平均値} = \frac{\text{データの合計}}{\text{データの個数}}
$$

不等式への応用
この問題の核心は、「平均が〇〇以上になる」という文章を、数式(不等式)に変換することです。

「8時間の平均欠陥数が4個以上」

これを数式に変換すると...
$$
\frac{\text{8時間の合計欠陥数}}{8} \ge 4
$$


3. 問題文の読解

問題文には「ポアソン分布」という専門用語が登場しますが、これは問題の背景設定を説明しているに過ぎません。

この問題の計算自体は、ポアソン分布の知識がなくても、平均値の定義さえ知っていれば解くことができます。

統計の問題では、このように 計算に直接必要のない情報と、必要な情報を見分ける読解力 も重要になります。


なぜこの概念が重要なのか?

  • データ要約の基本

    • 平均値は、データセット全体の特徴をたった一つの数値で要約する「代表値」として、最も広く使われます。
  • 推測統計学の基礎

    • 手元の標本(サンプル)から計算した「標本平均」は、母集団全体の平均(母平均)を推測するための重要な手がかりとなります。
  • 実社会での目標設定と評価

    • 「テストの平均点を60点以上にする」など、目標設定や達成度の評価に平均値は欠かせません。この問題のように、目標達成のために「あとどれくらい必要か」を計算するスキルは、論理的思考の基礎となります。

解答の根拠

問題の再掲
8時間全体の1時間あたりの平均欠陥数が、母平均である4個以上になるためには、8時間目に記録される欠陥数は最低何個必要か。

  • 観測時間: 8時間
  • 目標平均: 4個/時間 以上
  • 7時間分の記録: 3, 5, 2, 6, 4, 5, 3 個

解答の根拠:計算プロセス

  1. 最初の7時間の合計欠陥数を計算する
    $$
    3 + 5 + 2 + 6 + 4 + 5 + 3 = 28 \text{個}
    $$

  2. 未知数を設定し、8時間全体の合計を式で表す
    8時間目に記録される欠陥数を $x$ 個とします。
    8時間全体の合計欠陥数は $28 + x$ 個となります。

  3. 平均値の条件から不等式を立てる
    8時間の平均が4以上になるという条件なので、
    $$
    \frac{28 + x}{8} \ge 4
    $$


解答の根拠:計算プロセス

  1. 不等式を解く
    $$
    \frac{28 + x}{8} \ge 4
    $$
    両辺に8を掛ける:
    $$
    28 + x \ge 32
    $$
    両辺から28を引く:
    $$
    x \ge 32 - 28
    $$
    $$
    x \ge 4
    $$
    この結果は、8時間目の欠陥数が4個以上であれば良いことを示しています。
    「最低何個必要か」と問われているので、答えは4個です。

    よって、正解は となります。

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?