ノーフリーランチ定理
「あらゆる問題に対して、他の識別器よりも性能の高い万能なモデルやアルゴリズムは存在しない」
アンサンブル学習
- 複数のモデルの予測結果を組み合わせて最終的な予測を行う
- 各モデルを弱学習器という
バギング
- 並列
- ブートストラップ集計法(bootstrap aggregating)
- ブートストラッピング
- 訓練データから無作為に重複ありでサンプリング(復元抽出)する
- ブートストラッピングしたデータで弱学習器を学習する
- 結果を集計する
デ
↙︎↓↘︎
デ デ デ ・・・ブートストラッピング
↓ ↓ ↓
学 学 学
↘︎ ↓ ↙︎
集計! = 👜最終予測!
ブースティング
- 直列
- 弱学習器を逐次的に学習する
- 順番に学習するので時間がかかる
- 外れ値や誤差の影響を受けやすい
- Xgboostが実装するアルゴリズム
デ デ デ
↓ ↓ ↓
学→学→学→🚀最終予測!
スタッキング
- 複数のモデルの予測結果を特徴量にして学習する
- 各モデルの重み付けも最後の学習器が学習してくれる
- 学習データの情報を使い尽くすので学習データとテストデータの分布が同じでデータ量が多いと有効にはたらく
- 逆に時系列データなど学習データとテストデータの分布が異なる場合は過学習しやすい
- 教師なし学習による分類を2層目の特徴とする場合もある
- 3層、4層とスタッキングすることもある
デ→学→予測値!↘︎
デ→学→予測値!→学→🏫最終予測!
デ→学→予測値!↗︎