勾配ブースティング回帰とは?
複数の決定木を組み合わせてより強力なモデルを構築するもう1つのアンサンブル手法。名前に「回帰」とあるがクラス分類にも利用できる。
デフォルトでは回帰木に乱数はない。その代わりに強力な事前刈りが使用される。深さは1から5ぐらいの非常に浅い決定木を用いる。そのため、モデルに占めるメモリが小さくなり予測が速くなる。
このモデルのポイントは簡単なモデル(弱学習機)を多数組み合わせことである。決定木を繰り返し追加することで、性能を向上させていく。
ランダムフォレストに比べパラメータの設定の影響を受けやすいが、正しく設定するとこちらの方が性能が良くなる。
長所、短所
長所
・教師あり学習の中でも最も強力
・特徴量のスケール変換は必要なく、2値特徴量と連続値特徴量が混在しても機能する。
短所
・パラメータのチューニングに注意が必要なこと。
・訓練にかかる時間が長い。
・高次元の疎なデータに対してうまく機能しない。
重要なパラメータ
n_estimators(決定木の数)
ランダムフォレストでは決定木は多ければ多いほどよかったが、勾配ブースティングの場合は多くしすぎると、複雑なモデルになり過剰学習してしまう。
learning_rate(学習率)
個々の決定木がそれまでの決定木の過ちをどれくらい強く補正するかを制御するパラメータ。
値を大きくすると、補正が強くなり、モデルが複雑になりやすい。
n_estimatorsを時間とメモリ量で決めて、learning_rateに対して探索を行う方法がよく用いられる。