1
7

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

データの分類方法

Posted at

データの分類方法

  • 問題提起

    • 分析に使えそうなデータを整理したい。まず何をするべきだろうか?
    • 最大値や最小値、平均などを取ればいいだろうか?
    • しかしその場合、最大値や最小値、平均に意味がないデータが存在する。
      • 男=1、女=0というようなカテゴリカルなデータなど。
  • 答え

    • 集計の前に、データを分類する。
  • データの大まかな分類

    • 量的データ
      • 数値で表されるデータ。
      • 例: 身長、体重、金額、温度など。
    • 質的データ
      • カテゴリデータや、順位データ(カテゴリデータに順位をつけたもの)。
      • カテゴリデータの例: 男=1、女=0というような、数値に区別の意味しかないデータ。
      • 順位データの例: 大変良い(5)、良い(4)、普通(3)、悪い(2)、大変悪い(1)というような、数値に区別と順位の意味があるもの。
        • 量的データとは異なる。
        • 「大変良い(5)」は「大変悪い(1)」よりも高い値という順位はある。しかし「大変悪い(1」を5倍したり「大変悪い(1」が5個あれば、「大変良い(5」になるわけではなく、加減乗除に意味がない。
    • ※ このような分類を測定尺度による分類という。
  • 比率データと間隔データ

    • 量的データは2つに分類できる。
      • 比率データ
        • 絶対的なゼロ点を持ち、加減乗除が可能
        • 例: 身長、体重、金額
      • 間隔データ
        • 絶対的なゼロ点がなく、足し算引き算は可能だが、掛け算や割り算はできない。
        • 例: 摂氏の温度、知能指数
  • データの分類の表

  • データの名称 測定尺度 直接できる演算 主な代表値 主な事例
    量的データ 比率データ 比率尺度 +-×÷ 各種平均 質量、長さ、年齢、時間、金額
    量的データ 間隔データ 間隔尺度 +- 算術平均 温度(摂氏)、知能指数
    質的データ 順位データ 順序尺度 >= 中央値、最頻値 満足度、選好度、硬度
    質的データ カテゴリデータ 名義尺度 度数カウント 最頻値 電話番号、性別、血液型
    • 参考文献[1]から引用(フォーマットを一部変更)
  • データの整理の例

    • サンプルデータの説明

      • アンケート結果を格納したアンケートテーブルがあるとする。
    • アンケートテーブルの構成

      • 名前
      • 年齢
      • 性別
        • 男: 1、女: 0
      • 出身地方
        • 都道府県を記載
      • 身長
      • 体重
      • BMI
        • 身長と体重から自動計算
      • 「健康に興味がありますか?」という問いの答え: はい(=1)、いいえ(=0)の二択
      • 「あなたの健康状態を5段階で教えてください」という問いの答え: 5,4,3,2,1のいずれかの値。数値が大きいほどよい。
    • サンプルデータの各列を測定尺度で分類し、集計方法を考える。

      • 名前
        • 分析対象外
      • 年齢
        • 量的データ(比率データ)
        • 集計の例: 最大、最小、平均、分散(標準偏差)を取得。
      • 性別
        • 質的データ(カテゴリデータ)
        • 集計の例: 度数を取得
      • 出身地方
        • 質的データ(カテゴリデータ)
        • 集計の例: 度数、最頻値を取得
      • 身長
        • 量的データ(比率データ)
        • 集計の例: 最大、最小、平均、分散(標準偏差)を取得。
      • 体重
        • 量的データ(比率データ)
        • 集計の例: 最大、最小、平均、分散(標準偏差)を取得。
      • BMI
        • 量的データ(比率データ)
        • 集計の例: 最大、最小、平均、分散(標準偏差)を取得。
      • 「健康に興味がありますか?」の答え: はい(=1)、いいえ(=0)の二択
        • 質的データ(カテゴリデータ)
        • 集計の例: 度数を取得
      • 「あなたの健康状態を5段階で教えてください」の答え: 5, 4, 3, 2, 1のいずれかの値。数値が大きいほどよい。
        • 質的データ(順序データ)
        • 集計の例: 度数、中央値、最頻値を取得
    • 一言

      • 数千万件、数億件のレコードを格納したデータベースでは、最大や最小などの集計にはそれなりの時間がかかる(数分~数時間)。
      • どの列も一律に最大値や最小値を算出するのではなく,データを分類し、適切な集計をすることで、無駄を省き、役に立つ集計結果が得られる。
  • 参考文献

    • [1] 入門統計学-検定から多変量解析・実験計画法まで-(栗原伸一)
1
7
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
7

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?