More than 3 years have passed since last update.

機械学習で使えるモデルまとめ

Posted at 2021-12-30

scikit-learnを使いながら、機械学習について基礎から学んでいるところです。機械学習のモデルは数多くあるので、主要なものをまとめておきます。学びを進める過程で、随時加筆していきます。

教師あり学習

元になるデータとともに、回答情報も与えて学習させる方法。

株価や売上高、得点などの数値の場合に使うモデル。

線型重回帰分析: 一次式で表すことができるモデル。学習前に特徴量を手動で選択した上で、外れ値をデータから除いておく必要がある。
リッジ回帰分析: 線形重回帰分析における学習後の係数が小さくなるように学習をさせるモデルの一つ。重回帰分析よりテストデータでのごさを小さくしやすい。
ラッソ回帰分析: 線形重回帰分析における学習後の係数が小さくなるように学習をさせるモデルの一つ。不要な特徴量については係数を0にすることができるため、意味のある特徴量を選択するためにも利用できる。
回帰木分析: 二分木の形で表すことができるモデル。各分岐の正解データの平均値を予測結果とする。分岐条件が多くなる傾向があるため、ランダムに条件のサンプリングをする処理を行う。
ロジスティック回帰分析: 各分類に当てはまる確率を算出する計算式を学習していくモデル。
ランダムフォレスト分析: 複数の分類木分析を組み合わせ多数決をとらせるアンサンブル学習型（複数のモデルを組み合わせる方式)のモデル。

正解がない状態でデータをモデルに渡すことで、それをグループ分けしたり、有益な別の情報を付加するよう学習を進めるモデル。

データのいくつかの列を参考に新たな概念情報を付加する。例えば個人情報やこれまでの自己情報から、保険金を決定するための新たなスコアを計算するなど。

データをいくつかのグループに分ける。これにより、例えばマーケティングでグループごとにアプローチ方法を考えるなどの戦略立案に利用できる。

機械学習の上での基本的な情報も載せておきます。

学習データの20〜30％のデータは学習結果の評価用に使う
学習結果として80%を超えるとうまく学習できていると言える

<<参考>>『スッキリわかる機械学習入門掲載コード』