0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

度数分布とデータの可視化_統計検定2級対策

0
Posted at

以下の統計検定2級対策動画で用いられているスライドの一部です。


こんな「生データ」、どう分析しますか?

あるカフェの1ヶ月(30日間)のコーヒー販売杯数の記録です。

85, 108, 93, 77, 115, 128, 64, 99, 102, 88,
135, 112, 95, 81, 74, 121, 105, 91, 148, 79,
100, 118, 86, 98, 125, 71, 103, 90, 131, 82

ただ数字が並んでいるだけでは、
このデータがどのような特徴を持っているのか
直感的に理解するのは困難です…


そこで活躍するのが「度数分布」です!

この手法を使うと、データの傾向を掴むことができます。

  • Step 1: データの範囲を確認する
  • Step 2: データをいくつかの区間に分ける
  • Step 3: 表に整理して特徴を読み取る
  • Step 4: グラフで視覚的に表現する

今回はこの手順で、先ほどのデータを分析していきましょう。


Step 1: データの範囲を確認する

まず、データ全体がどのくらいの範囲に広がっているかを見ます。

  • 最大値: 148 杯
  • 最小値: 64 杯

このデータは、64杯から148杯の間に分布していることがわかります。


Step 2-1: データをいくつの区間に分けるか?

データを整理しやすくするため、いくつかの区間に分割します。
この区間のことを階級と呼びます。

階級の数を決める目安としてスタージェスの公式が便利です。

$$
k = 1 + \log_2 n
$$

  • $k$: 階級の数
  • $n$: データ数 (今回は30)

$k = 1 + \log_2 30 \approx 1 + 4.907 \approx 5.907$

計算結果から、階級の数は 6 が適切と判断します。


Step 2-2: 区間の幅(階級の幅)を決める

次に、1つの区間がどれくらいの大きさを持つか(階級の幅)を決めます。

$$
\text{階級の幅} \approx \frac{\text{最大値} - \text{最小値}}{\text{階級の数}}
$$

$$
\frac{148 - 64}{6} = \frac{84}{6} = 14
$$

計算結果は14ですが、解釈しやすいようにキリの良い数値に調整します。
今回は、階級の幅を 20 に設定します。


Step 3-1: 各区間のデータ数を数える

階級の幅を20として、各区間に含まれるデータの個数(度数)を数えます。

  • 60以上 80未満: 5個
    (64, 77, 74, 79, 71)
  • 80以上 100未満: 11個
    (85, 93, 99, 88, 95, 81, 91, 86, 98, 90, 82)
  • 100以上 120未満: 8個
    (108, 115, 102, 112, 105, 100, 118, 103)
  • 120以上 140未満: 5個
    (128, 121, 135, 125, 131)
  • 140以上 160未満: 1個
    (148)

Step 3-2: 「度数分布表」を完成させる

数えた度数と、他の指標(階級値、相対度数など)を一つの表にまとめます。これが度数分布表です。

階級 (杯) 階級値 度数 相対度数 累積度数 累積相対度数
60~ 80 70 5 0.167 5 0.167
80~100 90 11 0.367 16 0.533
100~120 110 8 0.267 24 0.800
120~140 130 5 0.167 29 0.967
140~160 150 1 0.033 30 1.000
合計 - 30 1.000 - -

この表から、「80杯以上100杯未満の日が最も多く、全体の約37%を占める」といった特徴が読み取れます。


Step 4-1: ヒストグラムで分布の形を見る

ヒストグラムは、度数分布表を棒グラフで表現したものです。
データの分布を視覚的に捉えることができます。

image.png

  • 分布の形状: 80〜100杯をピークとした山型の分布
  • 中心の位置: 90〜110杯あたりに中心がありそう
  • ばらつき: データがどの程度の範囲に広がっているかが一目瞭然

Step 4-2: 累積度数分布グラフで割合を見る

累積度数分布グラフは、ある値以下のデータが全体に占める割合を示します。オジャイブとも呼ばれます。

image.png

例えば、グラフから「1日の販売数が120杯未満の日が、全体の80%を占める」ことが読み取れます。
グラフの傾きが急な区間は、データが密集していることを意味します。


まとめ(1): 用語の一般化

ここまでの具体例を踏まえて、用語を一般的に定義します。

度数分布

収集したデータをいくつかの区間(階級)に分け、それぞれの区間にいくつのデータが存在するか(度数)を整理した分布のこと。

度数分布表

度数分布を一覧表にまとめたもの。


まとめ(2): 度数分布表の構成要素

要素名 説明
階級 データを分割するための区間。「60以上80未満」のように定義。
階級の幅 一つの階級が持つ区間の大きさ。
階級値 各階級を代表する値(中央値)。(下限 + 上限) / 2で計算。
度数 各階級に含まれるデータの個数。
相対度数 全データ数に対する、各階級の度数の割合。度数 / 度数合計
累積度数 最初の階級からその階級までの度数を足し合わせた値。
累積相対度数 最初の階級からその階級までの相対度数を足し合わせた値。

結論: データ分析の第一歩

今回学んだ手法は、データ分析の強力な第一歩です。

  • 度数分布表: データの数値を整理し、分布を把握できる。
  • ヒストグラム: 分布の形状、中心、ばらつきを視覚的に捉えられる。
  • 累積度数分布グラフ: 全体に対する各階級までの割合を把握できる。

これらの手法は、より高度な統計解析を行う上での基礎となります。
まずは手元のデータで度数分布表を作成し、ヒストグラムを描くことから始めてみましょう。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?