以下の統計検定2級対策動画で用いられているスライドの一部です。
今回考える問題:生徒のテスト結果
【問題】
あるプログラミングスクールの生徒30人が受けた最終試験の点数(100点満点)のデータがあります。このデータからデータのばらつきを可視化してみましょう。
👇 30人分の試験点数データ
85, 72, 68, 91, 78, 88, 54, 65, 77, 81, 95, 74, 69, 83, 76, 58, 62, 79, 89, 71, 66, 80, 92, 75, 63, 84, 70, 67, 86, 73
ステップ1:データの範囲を確認する
まず、データ全体がどの範囲に分布しているかを確認します。
- データの最大値: 95点
- データの最小値: 54点
よって、データの範囲は $95 - 54 = 41$ 点となります。
ステップ2:データを区切る「階級」を決める
データをいくつかの区間に分けて整理します。この区間を「階級」と呼びます。
-
今回は、点数の分布をわかりやすく見るために、 階級の幅を「10点」 と設定します。
-
最小値54点~最大値95点をカバーするように、以下の階級を設定します。
50点以上 60点未満60点以上 70点未満70点以上 80点未満80点以上 90点未満90点以上 100点未満
ステップ3:度数分布表を作成する
次に、各階級に何人の生徒が含まれるかを数えます。
これを 「度数」 と呼びます。
この「階級」と「度数」をまとめた表が 「度数分布表」 です。
| 階級 (点) | 度数 (人) |
|---|---|
| 50 以上 60 未満 | 2 |
| 60 以上 70 未満 | 7 |
| 70 以上 80 未満 | 10 |
| 80 以上 90 未満 | 8 |
| 90 以上 100 未満 | 3 |
| 合計 | 30 |
ステップ4:ヒストグラムを描画する
作成した度数分布表をもとに、グラフを作成します。
- 横軸: 階級(点数)
- 縦軸: 度数(人数)
このグラフから、「70点以上80点未満」の生徒が最も多く、
全体の分布は中央あたりに山がある形状をしていることが一目でわかります。
このグラフが「ヒストグラム」です
ヒストグラムとは?
量的データ(数値データ)を区間ごとに区切り、各区間のデータの個数(度数)を棒グラフのように示したグラフのこと。といったデータの分布状態を視覚的に把握できます。
- どの値の周辺にデータが集中しているか
- データがどの範囲にどれくらい広がっているか
※ 棒グラフと似ていますが、ヒストグラムは連続するデータの分布を示すため、棒と棒の間隔を空けずに描くのが特徴です。
度数分布表をさらに詳しく見てみよう
先ほどの度数分布表に、分析に役立つ項目を追加してみましょう。
| 階級 (点) | 階級値 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
|---|---|---|---|---|---|
| 50以上 60未満 | 55 | 2 | 0.07 | 2 | 0.07 |
| 60以上 70未満 | 65 | 7 | 0.23 | 9 | 0.30 |
| 70以上 80未満 | 75 | 10 | 0.33 | 19 | 0.63 |
| 80以上 90未満 | 85 | 8 | 0.27 | 27 | 0.90 |
| 90以上 100未満 | 95 | 3 | 0.10 | 30 | 1.00 |
| 合計 | - | 30 | 1.00 | - | - |
度数分布表の用語解説 (1/2)
-
階級値
- 各階級を代表する値(階級の中央値)。
$$
階級値 = \frac{階級の上限値 + 階級の下限値}{2}
$$
例: 「50以上60未満」の階級値は $(50 + 60) / 2 = 55$
- 各階級を代表する値(階級の中央値)。
-
相対度数
- データ全体に対する、各階級の度数の割合。
$$
相対度数 = \frac{度数}{度数の合計}
$$
例: 「70以上80未満」の相対度数は $10 \div 30 \approx 0.333$
- データ全体に対する、各階級の度数の割合。
度数分布表の用語解説 (2/2)
-
累積相対度数
- 最初の階級から、その階級までの相対度数をすべて合計した値。
- データ全体のうち、ある値までにどれくらいの割合のデータが含まれているかを示します。
例: 80点未満(
50~60,60~70,70~80の階級)の生徒の割合は、累積相対度数から 約63% であることがわかります。(計算:
2/30 + 7/30 + 10/30=19/30≒0.633)
まとめ:ヒストグラムと度数分布表の定義
これまでの内容を一般化すると、以下のようになります。
| 用語 | 定義 |
|---|---|
| ヒストグラム | 量的データの分布状態を視覚的に把握するためのグラフ。 |
| 階級 | データを分割する区間のこと。 |
| 度数 | 各階級に含まれるデータの個数。 |
| 階級値 | 各階級を代表する中央の値。 |
| 相対度数 | 全体に対する各階級の度数の割合。 |
| 累積相対度数 | ある階級までの相対度数の合計。 |
結論
-
ヒストグラムは、数値の羅列だけではわからないデータ全体の分布を明らかにする強力なツールです。
-
度数分布表を作成するプロセスを通じて、データをより深く理解できます。
-
統計分析の第一歩として、ぜひヒストグラムの作成に挑戦してみてください!
