データの分類方法
-
問題提起
- 分析に使えそうなデータを整理したい。まず何をするべきだろうか?
- 最大値や最小値、平均などを取ればいいだろうか?
- しかしその場合、最大値や最小値、平均に意味がないデータが存在する。
- 男=1、女=0というようなカテゴリカルなデータなど。
-
答え
- 集計の前に、データを分類する。
-
データの大まかな分類
- 量的データ
- 数値で表されるデータ。
- 例: 身長、体重、金額、温度など。
- 質的データ
- カテゴリデータや、順位データ(カテゴリデータに順位をつけたもの)。
- カテゴリデータの例: 男=1、女=0というような、数値に区別の意味しかないデータ。
- 順位データの例: 大変良い(5)、良い(4)、普通(3)、悪い(2)、大変悪い(1)というような、数値に区別と順位の意味があるもの。
- 量的データとは異なる。
- 「大変良い(5)」は「大変悪い(1)」よりも高い値という順位はある。しかし「大変悪い(1」を5倍したり「大変悪い(1」が5個あれば、「大変良い(5」になるわけではなく、加減乗除に意味がない。
- ※ このような分類を
測定尺度
による分類という。
- 量的データ
-
比率データと間隔データ
- 量的データは2つに分類できる。
- 比率データ
- 絶対的なゼロ点を持ち、加減乗除が可能
- 例: 身長、体重、金額
- 間隔データ
- 絶対的なゼロ点がなく、足し算引き算は可能だが、掛け算や割り算はできない。
- 例: 摂氏の温度、知能指数
- 比率データ
- 量的データは2つに分類できる。
-
データの分類の表
-
データの名称 測定尺度 直接できる演算 主な代表値 主な事例 量的データ 比率データ 比率尺度 +-×÷ 各種平均 質量、長さ、年齢、時間、金額 量的データ 間隔データ 間隔尺度 +- 算術平均 温度(摂氏)、知能指数 質的データ 順位データ 順序尺度 >= 中央値、最頻値 満足度、選好度、硬度 質的データ カテゴリデータ 名義尺度 度数カウント 最頻値 電話番号、性別、血液型 - 参考文献[1]から引用(フォーマットを一部変更)
-
データの整理の例
-
サンプルデータの説明
- アンケート結果を格納したアンケートテーブルがあるとする。
-
アンケートテーブルの構成
- 名前
- 年齢
- 性別
- 男: 1、女: 0
- 出身地方
- 都道府県を記載
- 身長
- 体重
- BMI
- 身長と体重から自動計算
- 「健康に興味がありますか?」という問いの答え: はい(=1)、いいえ(=0)の二択
- 「あなたの健康状態を5段階で教えてください」という問いの答え: 5,4,3,2,1のいずれかの値。数値が大きいほどよい。
-
サンプルデータの各列を測定尺度で分類し、集計方法を考える。
- 名前
- 分析対象外
- 年齢
- 量的データ(比率データ)
- 集計の例: 最大、最小、平均、分散(標準偏差)を取得。
- 性別
- 質的データ(カテゴリデータ)
- 集計の例: 度数を取得
- 出身地方
- 質的データ(カテゴリデータ)
- 集計の例: 度数、最頻値を取得
- 身長
- 量的データ(比率データ)
- 集計の例: 最大、最小、平均、分散(標準偏差)を取得。
- 体重
- 量的データ(比率データ)
- 集計の例: 最大、最小、平均、分散(標準偏差)を取得。
- BMI
- 量的データ(比率データ)
- 集計の例: 最大、最小、平均、分散(標準偏差)を取得。
- 「健康に興味がありますか?」の答え: はい(=1)、いいえ(=0)の二択
- 質的データ(カテゴリデータ)
- 集計の例: 度数を取得
- 「あなたの健康状態を5段階で教えてください」の答え: 5, 4, 3, 2, 1のいずれかの値。数値が大きいほどよい。
- 質的データ(順序データ)
- 集計の例: 度数、中央値、最頻値を取得
- 名前
-
一言
- 数千万件、数億件のレコードを格納したデータベースでは、最大や最小などの集計にはそれなりの時間がかかる(数分~数時間)。
- どの列も一律に最大値や最小値を算出するのではなく,データを分類し、適切な集計をすることで、無駄を省き、役に立つ集計結果が得られる。
-
-
参考文献
- [1] 入門統計学-検定から多変量解析・実験計画法まで-(栗原伸一)