概要
- 機械学習で、分類と回帰を行うにあたって、抑えておくべき統計学の用語(質的データと量的データ、離散値と連続値)について勉強したいと思います。
統計学の用語(質的データと量的データ)
質的データ
- 性別の区分、順序など分類できるデータのことです。
- 名義尺度と順序尺度に分類できます。
名義尺度
- 性別、血液型など区分に分類できるデータのこと
- このデータは、四則演算などの計算対象外です。
順序尺度
- 1位、2位、3位などの順序、病院内での症状の区分(気分が良い、少し気分が良い、普通、少し気分が悪い、とても気分が悪い)に意味を持たせる事が出来るデータのこと
- このデータは、四則演算などの計算対象外です。順序の比較は行います。
量的データ
- 数値として測ることが出来るデータとして、比例尺度、間隔尺度があります。
比例尺度
- 順序、身長、年齢、売上高、販売数量など物理的数量を測定したもの。比較することにより意味を持たせる事が出来るデータのこと。
- 例えば、売上高を例に取ると、先日の売上高と本日の売上高を比較するようなことです。
- 四則演算できます。
間隔尺度
- 温度や西暦など一定の等間隔を持たせたデータに意味を持たせる事が出来るデータのこと。
- 例えば、 水の温度が50度から60度に上がったとき、その10度上がったことに意味を見出すこと。
- 足し算、引き算の計算が出来ます。
統計学の用語(離散値と連続値)
離散値と連続値
- 量として計算できるデータはさらに離散値と連続値に分類できます。
- 離散値は、整数として表現されるデータです。人数、個数など
- 連続値は、時間と比例して連続して続くようなデータ。身長、体重など
機械学習のお話(分類と予測)
分類
- 機械学習で「分類」を行うことが出来るのは、質的データと量的データ(そのうちの離散値)です。
- 性別の場合、「男」、「女」に分類
- 順序の場合、「1位」、「2位」、「3位」に分類
予測
- 機械学習で「予測」を行う対象は量的データのうちの連続値です。
- 例えば、機械学習の予測で、先週の売上高から今週の売上高を予測できます。
説明変数と目的変数 2019.03.31追記
- 統計学においては、予測を回帰により分析します。
- 求める予測結果を「目的変数」、求めるに当り必要なデータを「説明変数」といいます。
- 例えば、「明日の天気」を予測する場合、「過去の雨雲レーダーのデータ」を元にして予測するとしたら、「明日の天気」=「目的変数」、「過去の雨雲レーダーのデータ」=「説明変数」となります。
- 「目的変数」をY、「説明変数」をXとしたとき以下のモデルが成立します。
Y = f(X)
- 回帰は、「目的変数」Y、「説明変数」Xとの間にモデル(f)を当てはめる事です。この回帰を使って分析する事を回帰分析といいます。
- 回帰分析には、「線形回帰」、「非線形回帰」と呼ばれるモデルが有りますが、これについては、後日、記載していきたいと思います。