scikit-learnを使いながら、機械学習について基礎から学んでいるところです。機械学習のモデルは数多くあるので、主要なものをまとめておきます。学びを進める過程で、随時加筆していきます。
教師あり学習
元になるデータとともに、回答情報も与えて学習させる方法。
回帰
株価や売上高、得点などの数値の場合に使うモデル。
- 線型重回帰分析
- 一次式で表すことができるモデル。学習前に特徴量を手動で選択した上で、外れ値をデータから除いておく必要がある。
- リッジ回帰分析
- 線形重回帰分析における学習後の係数が小さくなるように学習をさせるモデルの一つ。重回帰分析よりテストデータでのごさを小さくしやすい。
- ラッソ回帰分析
- 線形重回帰分析における学習後の係数が小さくなるように学習をさせるモデルの一つ。不要な特徴量 については係数を0にすることができるため、意味のある特徴量を選択するためにも利用できる。
- 回帰木分析
- 二分木の形で表すことができるモデル。各分岐の正解データの平均値を予測結果とする。分岐条件が多くなる傾向があるため、ランダムに条件のサンプリングをする処理を行う。
- ロジスティック回帰分析
- 各分類に当てはまる確率を算出する計算式を学習していくモデル。
- ランダムフォレスト分析
- 複数の分類木分析を組み合わせ多数決をとらせるアンサンブル学習型(複数のモデルを組み合わせる方式)のモデル。
分類
データをいくつかの区分に分ける場合に使うモデル。結果がYes/Noやいくつかのグループに分類される場合に使う。
- 分類木分析
- 二分木の形で表すことができるモデル。外れ値の影響は受けにくいが、データ間の不均衡への考慮が必要。分岐条件が多くなる傾向があるため、ランダムに条件のサンプリングをする処理を行う。標準化処理はほとんど影響がない。
- ロジスティック回帰分析
- 各分類に当てはまる確率を算出する計算式を学習していくモデル。
- ランダムフォレスト分析
- 複数の分類木分析を組み合わせ多数決をとらせるアンサンブル学習型(複数のモデルを組み合わせる方式)のモデル。
教師なし学習
正解がない状態でデータをモデルに渡すことで、それをグループ分けしたり、有益な別の情報を付加するよう学習を進めるモデル。
次元削減
データのいくつかの列を参考に新たな概念情報を付加する。例えば個人情報やこれまでの自己情報から、保険金を決定するための新たなスコアを計算するなど。
- 主成分分析
- 次元削減において最も代表的な手法。新しい軸での分散が大きくなるような軸を学習する。
クラスタリング
データをいくつかのグループに分ける。これにより、例えばマーケティングでグループごとにアプローチ方法を考えるなどの戦略立案に利用できる。
- k-means法
- クラスタリングにおいて一番有名な手法。事前にいくつのクラスタを作成するかを決める必要がある。
補足
機械学習の上での基本的な情報も載せておきます。
学習データの20〜30%のデータは学習結果の評価用に使う
学習結果として80%を超えるとうまく学習できていると言える
<<参考>>『スッキリわかる機械学習入門 掲載コード』