学習サイト
統計web
データの集計について
手元にあるデータがどのようなものかは数字の羅列を見ただけではよくわからないため、一目見てデータの分布や特徴を掴めるようにすることが重要である
# 質的データ
得られたデータが質的データの場合、データの可視化にあたり、データを集計する
具体的には、項目ごとにデータを数えたり、合計したり、結果をまとめる
これにより、棒グラフや円グラフを作成することができるようになる
例:あるクラス30人の好きなスポーツ
野球 | サッカー | 野球 | テニス | 野球 |
---|---|---|---|---|
野球 | テニス | サッカー | サッカー | テニス |
サッカー | 水泳 | サッカー | サッカー | サッカー |
サッカー | テニス | 水泳 | 水泳 | 野球 |
野球 | 野球 | 野球 | サッカー | サッカー |
サッカー | サッカー | テニス | テニス | テニス |
このデータを項目に着目して個数をカウントして集計した結果が以下の通りである
スポーツ | 人数(人) |
---|---|
サッカー | 12 |
野球 | 8 |
テニス | 7 |
水泳 | 3 |
量的データ
得られたデータが量的データである場合、基本統計量を求めることが大事である
基本統計量
- 平均値や最小値、最大値のこと
基本統計量を求めたのち、箱ひげ図やヒストグラムを作成することで、データのばらつきや分布を確認することができる
例:あるクラス30人の国語の点数
64 | 56 | 51 | 77 | 45 | 73 | 64 | 44 | 69 | 66 |
---|---|---|---|---|---|---|---|---|---|
63 | 53 | 83 | 72 | 58 | 68 | 66 | 74 | 62 | 60 |
44 | 48 | 47 | 78 | 54 | 59 | 48 | 57 | 58 | 71 |
クロス集計表
2つのカテゴリーに属するデータをそれぞれのカテゴリで同時に分類し、その度数を集計したもの
例:あるクラス男女各15人の好きなスポーツ
No. | 男子 | 女子 |
---|---|---|
1 | 野球 | 水泳 |
2 | 野球 | 野球 |
3 | サッカー | テニス |
4 | サッカー | テニス |
5 | 野球 | サッカー |
6 | サッカー | サッカー |
7 | サッカー | 水泳 |
8 | テニス | サッカー |
9 | サッカー | テニス |
10 | 水泳 | 野球 |
11 | テニス | テニス |
12 | 野球 | サッカー |
13 | 野球 | 野球 |
14 | サッカー | サッカー |
15 | サッカー | テニス |
上記のデータからクロス集計表を作成すると、以下のようになる
サッカー | 野球 | テニス | 水泳 | 合計 | |
---|---|---|---|---|---|
男子 | 7 | 5 | 2 | 1 | 15 |
女子 | 5 | 3 | 5 | 2 | 15 |
合計 | 12 | 8 | 7 | 3 | 30 |
左側の「性別」のカテゴリー数が2つ、上側の「スポーツ」のカテゴリー数が4つであるので、この「性別×好きなスポーツのクロス集計表」は「2×4のクロス集計表」と呼ばれる
カテゴリーの位置を入れ替えれば、「4×2のクロス集計表」と呼ばれる
上記のクロス集計表でいう「性別」の項目のことを表側(ひょうそく) という
また、「スポーツ」の項目のように上側の項目のことを表頭(ひょうとう)という
帯グラフ
- クロス集計表において、群ごとの割合を比較するためのもの
- 積み上げグラフを横向きにした形状
- ****
- それぞれの構成比が棒の幅
- データ内での構成比の大小を見ることに適している
-
異なる群間の構成比を比較することも可能
- 異なる群間とは、「性別×好きなスポーツのクロス集計表」でいう全体、女子、男子のようなこと
モザイク図
- 縦方向
- クロス集計表の表側のカテゴリーごとに積み上げ100%の棒グラフ
- 横方向
- 表側の各カテゴリーの度数の合計に比例するようにしたグラフ
- クロス集計表の各セルに対応した四角形の面積は、各セルの度数に比例した大きさになる
三角グラフ
- 3つの要素で構成されるデータにおいて、その構成比を表す際に用いられるグラフ
- グラフにプロットされたデータの点から三角形の各辺と並行な直線を引いた時、辺との交点の値が3要素の構成比を表す
三角グラフの作り方
例:世界の主な国の産業別人口構成
国名 | 第1次産業 | 第2次産業 | 第3次産業 |
---|---|---|---|
日本 | 3.8 | 24.9 | 70.0 |
インド | 47.2 | 24.7 | 28.1 |
中国 | 33.6 | 30.3 | 36.1 |
イギリス | 1.1 | 18.7 | 79.3 |
アメリカ | 1.5 | 18.3 | 80.2 |
メキシコ | 13.6 | 23.8 | 62.0 |
- 三角グラフの外枠を作る
- それぞれの要素を三角形の各頂点に配置する
- 「第一次産業(三角形の上側頂点)」は左側の青線で囲んだ辺、「第二次産業(三角形の左下頂点)」は下側の緑線で囲んだ辺、「第三次産業(三角形の右下頂点)」は右側の赤線で囲んだ辺が軸となる
- データをプロット
- ここでは、インドのデータを用いて説明する
- インドのデータは第一次産業が「47.2%」、第二次産業が「24.7%」、第三次産業が「28.1%」である
- 各軸からいずれかの軸と並行となるように線を引く
- 重なった点がインドのデータをプロットする点である