※注意です。この記事は僕のアウトプットのために書いたものであるので、間違っている箇所もあるかと思う。
よって、もしここの認識間違っているよ等、ありましたら教えて頂けると嬉しい。
それでは早速、本題に入っていく。ここでは教師あり学習の線形回帰と決定木のアルゴリズムについて解説していく。
『教師あり学習について』
・教師あり学習は、取り扱うデータが連続値なのか離散値なのかによって、回帰と分類のタスクに分けられる。
【線形回帰】
・予測値=特徴量と線形の関係 という仮定とする。
・この仮定より、学習データが少なくても過学習しづらい特性がある。
・ここで注意して欲しいのが、学習データが少なくても過学習しづらい、逆に捉えれば、学習データが多い時やモデルが複雑な時に関しては、過学習を起こしやすい。
【決定木】
・学習データの特徴量を使って、条件分岐を行う。
・決定木は、基本的に過学習を起こしやすく、線形回帰と比較すると、精度は落ちる。ただ、これに関しては、決定木を単体で使用した場合は、ということ。つまり複数を組み合わせて使用すれば線形回帰よりも精度はいい。
・要するに、この決定木を弱学習器としてアンサンブル学習すれば、複雑なモデルにも対応できる。(※アンサンブル学習については前回の記事に書いてあるので、そちらを見るように。)
・で、このアンサンブル学習には「勾配ブースティング」と「ランダムフォレスト」の二種類がある。
・この二つのアンサンブル学習については、また次の記事で触れることにする。
以上が、線形回帰と決定木のアルゴリズムである。また補足事項があれば継ぎ足していき、認識が間違っていればその部分を変更していく。
ここまで、僕の記事を読んでくれてありがとう。これからこんな感じで記事を出していくので、暇な時にでも読んでくれ。