決定木とは
ーある基準に基づいて分類分けをしていくアルゴリズム。
よくある例
花の分類
ー花びらの長さ・幅に基準を設けて分ける。(iris)
具体的には
2.45cm以下の長さの花びらを持つ花はヒオウギアヤメ(Setosa)。
それ以上のものはさらに花びらの幅1.75以上以下で2種類(versicolor, virginica)に分ける。
ではその基準をどう決めているのか。
ー(分類前の不純度ー分類後の不純度)を最大にする値で基準を決める。
意味わかんないでしょうwww
最初から説明すると、どんだけきれいに分かれているかを最大化するという話です。
まず、不純度とはどれだけのいろいろなクラスの観測地が混じり合っているかを示すものです。高いほどグループとして揃ったデータではなく、低いほど同じものが同じグループとして分類されていることを示します。
例えば、3種類の花(Setosa, versicolor, virginica)を設定した基準で分けた後に間違って違うグループに入ってしまう割合を花の分類における不純度といいます。これを最小にするように基準を設けようという話です。
決定木とは分類後と分類前で不純度の最小化をして最適な分類の基準を設けて分けていくアルゴリズムというわけです。
この決定木のメリットとしては
・理屈や途中の基準がほかアルゴリズムと比べても分かりやすい(ホワイトボックスといわれる)
・分類・回帰両方に利用可能。
デメリットとして
・過学習になりやすい(Non-parametric model)
<ーー>線形回帰は元々回帰モデルを決定する際に人による教師あり学習ができて過学習になりにくい(e.g 回帰曲線は人間が決めるから)
・外れ値の影響を受けやすい(元々整理されたデータでないと不純度が上がりやすく分類が正確でない)
対策として
・パラメータを適切に設定する(過学習対策)。
・木の深さの上限を決める必要がある。(分類しようと思えばいくらでもできてしまうから)
過学習の状態とは、ある機械学習において訓練データを適合しすぎると検証データで逆に精度が低くなる現象のことです。
すごくわかりやすく例えると、視野が狭くなって頑固になってしまう人のようなものです。同じようなこと繰り返しすぎてしまってそれ以外のことが下手になる。
ことわざの”一芸は百芸に通ずる”はAIの機械学習において間違いです。
最後に、過学習や分類のし過ぎは分類の目的を失っています。
分類の目的は物事に重要で信頼できる区切りを見つけようということです。