機械学習の概要
- 機械学習とは「データの集合から」「その法則性」を学ぶこと。
- 目的は以下のようなものがある。
- 入力と出力の因果関係の抽出
- カテゴリ判定
- クラスタリング
- 異常値検知
特徴ベクトルとは
特徴ベクトルとは、対象の特徴を示す数値を並べたもの。すなわち、法則性を見つけるために項目ごとにデータを整理したものであり、法則性を導き出す前段階として適切な形式に変換する前処理によって生成される。
特徴ベクトルの例
{
templature: 27,
humidity: 76,
season: 3
...
}
機械学習のアルゴリズムの例
例として、室温等のデータから空調の故障を検知するための2つのアルゴリズムを上げる。
外れ値検知
データ全体を見て、典型的なパターン(正常なパターン)とは異なる、特異なパターンを外れ値(異常値)として検出する。
この方法では、正常値をあらかじめ与えておく必要がないのが特徴。
分類
過去のデータをもとに、故障時と正常時のデータ(あるいはいずれか一方)を与えておき、それをもとに現在の状態が正常か異常かを判断する方法。
機械学習を使う利点
状況が複雑かつ流動的で、経験と勘による場合分けやルール作りが難しい場合に威力を発揮する。
- 状況が一定ならプログラミングによって直接、法則を与えれば良い。それができない場合、例えば条件が季節によって変わるとか、対象によって閏値が異なるなどの場合には、機械学習によって法則性を見つけさせる。
学習プロセスとモデル
モデル : 学習の結果得られた法則性を表すもの。
- 初期状態が与えられたモデルにデータを与えてアルゴリズムを適用すると、パラメータが更新されたモデルが得られる。これを繰り返してモデルによる出力の精度を上げていく。
機械学習の問題設定
機械学習で扱う問題設定は「教師あり学習」と「教師なし学習」の大きく2つに分けられる。
教師あり学習とは
既存の情報から未知の情報を予測するのが「教師あり学習」
教師なし学習とは
訓練データを使わずにデータ内のパターンを発見するのが「教師なし学習」
教師あり学習
回帰
サンプルデータをもとに実数値を予測する。
線形回帰
入力に対して出力が比例する機械学習のモデルを「線形回帰」という。
損失関数と目的関数
- 損失関数とは予測の誤りを表す指標。
- 回帰問題では、
二条誤差 = (実際の値 - 予測値)2乗
が損失関数としてよく用いられる。 - 全ての場合で損失関数が小さくなるようなパラメータが良いパラメータと言える。
リッジ回帰
分類
ロジスティック回帰
教師なし学習
クラスタリング
クラスタリングはデータ内のサンプルをグループ分けすることが目標。
K平均法
- サンプルをK個のグループに分割する。
- 最初にランダムにグループ中心を決める。
- その後、グループ中心と所属グループを交互に決めていく。
- 各サンプルの所属グループを推定する。
- 各ブループのグループ中心を推定する。
混合正規分布
1つのサンプルに対して、各グループへの所属確率を割り当てる方法。
次元削減
多くの変数からなるデータの次元を減らし、データを要約することを目指す。