以下の統計検定2級対策動画で用いられているスライドの一部です。
こんな「生データ」、どう分析しますか?
あるカフェの1ヶ月(30日間)のコーヒー販売杯数の記録です。
85, 108, 93, 77, 115, 128, 64, 99, 102, 88,
135, 112, 95, 81, 74, 121, 105, 91, 148, 79,
100, 118, 86, 98, 125, 71, 103, 90, 131, 82
ただ数字が並んでいるだけでは、
このデータがどのような特徴を持っているのか
直感的に理解するのは困難です…
そこで活躍するのが「度数分布」です!
この手法を使うと、データの傾向を掴むことができます。
- Step 1: データの範囲を確認する
- Step 2: データをいくつかの区間に分ける
- Step 3: 表に整理して特徴を読み取る
- Step 4: グラフで視覚的に表現する
今回はこの手順で、先ほどのデータを分析していきましょう。
Step 1: データの範囲を確認する
まず、データ全体がどのくらいの範囲に広がっているかを見ます。
- 最大値: 148 杯
- 最小値: 64 杯
このデータは、64杯から148杯の間に分布していることがわかります。
Step 2-1: データをいくつの区間に分けるか?
データを整理しやすくするため、いくつかの区間に分割します。
この区間のことを階級と呼びます。
階級の数を決める目安としてスタージェスの公式が便利です。
$$
k = 1 + \log_2 n
$$
- $k$: 階級の数
- $n$: データ数 (今回は30)
$k = 1 + \log_2 30 \approx 1 + 4.907 \approx 5.907$
計算結果から、階級の数は 6 が適切と判断します。
Step 2-2: 区間の幅(階級の幅)を決める
次に、1つの区間がどれくらいの大きさを持つか(階級の幅)を決めます。
$$
\text{階級の幅} \approx \frac{\text{最大値} - \text{最小値}}{\text{階級の数}}
$$
$$
\frac{148 - 64}{6} = \frac{84}{6} = 14
$$
計算結果は14ですが、解釈しやすいようにキリの良い数値に調整します。
今回は、階級の幅を 20 に設定します。
Step 3-1: 各区間のデータ数を数える
階級の幅を20として、各区間に含まれるデータの個数(度数)を数えます。
-
60以上 80未満: 5個
(64, 77, 74, 79, 71) -
80以上 100未満: 11個
(85, 93, 99, 88, 95, 81, 91, 86, 98, 90, 82) -
100以上 120未満: 8個
(108, 115, 102, 112, 105, 100, 118, 103) -
120以上 140未満: 5個
(128, 121, 135, 125, 131) -
140以上 160未満: 1個
(148)
Step 3-2: 「度数分布表」を完成させる
数えた度数と、他の指標(階級値、相対度数など)を一つの表にまとめます。これが度数分布表です。
| 階級 (杯) | 階級値 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
|---|---|---|---|---|---|
| 60~ 80 | 70 | 5 | 0.167 | 5 | 0.167 |
| 80~100 | 90 | 11 | 0.367 | 16 | 0.533 |
| 100~120 | 110 | 8 | 0.267 | 24 | 0.800 |
| 120~140 | 130 | 5 | 0.167 | 29 | 0.967 |
| 140~160 | 150 | 1 | 0.033 | 30 | 1.000 |
| 合計 | - | 30 | 1.000 | - | - |
この表から、「80杯以上100杯未満の日が最も多く、全体の約37%を占める」といった特徴が読み取れます。
Step 4-1: ヒストグラムで分布の形を見る
ヒストグラムは、度数分布表を棒グラフで表現したものです。
データの分布を視覚的に捉えることができます。
- 分布の形状: 80〜100杯をピークとした山型の分布
- 中心の位置: 90〜110杯あたりに中心がありそう
- ばらつき: データがどの程度の範囲に広がっているかが一目瞭然
Step 4-2: 累積度数分布グラフで割合を見る
累積度数分布グラフは、ある値以下のデータが全体に占める割合を示します。オジャイブとも呼ばれます。
例えば、グラフから「1日の販売数が120杯未満の日が、全体の80%を占める」ことが読み取れます。
グラフの傾きが急な区間は、データが密集していることを意味します。
まとめ(1): 用語の一般化
ここまでの具体例を踏まえて、用語を一般的に定義します。
度数分布
収集したデータをいくつかの区間(階級)に分け、それぞれの区間にいくつのデータが存在するか(度数)を整理した分布のこと。
度数分布表
度数分布を一覧表にまとめたもの。
まとめ(2): 度数分布表の構成要素
| 要素名 | 説明 |
|---|---|
| 階級 | データを分割するための区間。「60以上80未満」のように定義。 |
| 階級の幅 | 一つの階級が持つ区間の大きさ。 |
| 階級値 | 各階級を代表する値(中央値)。(下限 + 上限) / 2で計算。 |
| 度数 | 各階級に含まれるデータの個数。 |
| 相対度数 | 全データ数に対する、各階級の度数の割合。度数 / 度数合計。 |
| 累積度数 | 最初の階級からその階級までの度数を足し合わせた値。 |
| 累積相対度数 | 最初の階級からその階級までの相対度数を足し合わせた値。 |
結論: データ分析の第一歩
今回学んだ手法は、データ分析の強力な第一歩です。
- 度数分布表: データの数値を整理し、分布を把握できる。
- ヒストグラム: 分布の形状、中心、ばらつきを視覚的に捉えられる。
- 累積度数分布グラフ: 全体に対する各階級までの割合を把握できる。
これらの手法は、より高度な統計解析を行う上での基礎となります。
まずは手元のデータで度数分布表を作成し、ヒストグラムを描くことから始めてみましょう。

