LoginSignup
3
2

More than 5 years have passed since last update.

【機械学習】統計学の用語(質的データと量的データ、離散値と連続値)

Last updated at Posted at 2019-03-29

概要

  • 機械学習で、分類と回帰を行うにあたって、抑えておくべき統計学の用語(質的データと量的データ、離散値と連続値)について勉強したいと思います。

統計学の用語(質的データと量的データ)

質的データ

  • 性別の区分、順序など分類できるデータのことです。
  • 名義尺度と順序尺度に分類できます。

名義尺度

  • 性別、血液型など区分に分類できるデータのこと
  • このデータは、四則演算などの計算対象外です。

順序尺度

  • 1位、2位、3位などの順序、病院内での症状の区分(気分が良い、少し気分が良い、普通、少し気分が悪い、とても気分が悪い)に意味を持たせる事が出来るデータのこと
  • このデータは、四則演算などの計算対象外です。順序の比較は行います。

量的データ

  • 数値として測ることが出来るデータとして、比例尺度、間隔尺度があります。

比例尺度

  • 順序、身長、年齢、売上高、販売数量など物理的数量を測定したもの。比較することにより意味を持たせる事が出来るデータのこと。
  • 例えば、売上高を例に取ると、先日の売上高と本日の売上高を比較するようなことです。
  • 四則演算できます。

間隔尺度

  • 温度や西暦など一定の等間隔を持たせたデータに意味を持たせる事が出来るデータのこと。
  • 例えば、 水の温度が50度から60度に上がったとき、その10度上がったことに意味を見出すこと。
  • 足し算、引き算の計算が出来ます。

統計学の用語(離散値と連続値)

離散値と連続値

  • 量として計算できるデータはさらに離散値と連続値に分類できます。
  • 離散値は、整数として表現されるデータです。人数、個数など
  • 連続値は、時間と比例して連続して続くようなデータ。身長、体重など

機械学習のお話(分類と予測)

分類

  • 機械学習で「分類」を行うことが出来るのは、質的データと量的データ(そのうちの離散値)です。
  • 性別の場合、「男」、「女」に分類
  • 順序の場合、「1位」、「2位」、「3位」に分類

予測

  • 機械学習で「予測」を行う対象は量的データのうちの連続値です。
  • 例えば、機械学習の予測で、先週の売上高から今週の売上高を予測できます。

説明変数と目的変数 2019.03.31追記

  • 統計学においては、予測を回帰により分析します。
  • 求める予測結果を「目的変数」、求めるに当り必要なデータを「説明変数」といいます。
    • 例えば、「明日の天気」を予測する場合、「過去の雨雲レーダーのデータ」を元にして予測するとしたら、「明日の天気」=「目的変数」、「過去の雨雲レーダーのデータ」=「説明変数」となります。
  • 「目的変数」をY、「説明変数」をXとしたとき以下のモデルが成立します。
Y = f(X) 
  • 回帰は、「目的変数」Y、「説明変数」Xとの間にモデル(f)を当てはめる事です。この回帰を使って分析する事を回帰分析といいます。
  • 回帰分析には、「線形回帰」、「非線形回帰」と呼ばれるモデルが有りますが、これについては、後日、記載していきたいと思います。
3
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
2