アンサンブル学習とは #統計学

バイアス

バイアスは
実際値とモデルとの誤差の平均

(E_{ \widehat{f} }[\widehat{f}(x)-f(x)])^{2}

のこと。
値が小さいほど予測値と真の値の誤差が全体的に小さいことがわかる。

モデルが単純であるあまりに学習が上手くいかない度合いを表している。

対してバリアンスは
モデルがどれだけ散らばっているかを示す度合い = モデルの結果側の分散

(E_{ \widehat{f} }[\widehat{f}(x)]-E_{ \widehat{f}} [\widehat{f}(x)])^{2}]

のことで、値が小さいほど予測値の散らばりが小さいということになります。

訓練データに依存し過ぎることで新しいデータへの予測が悪化する度合いを表す。

バイアスが小さい方が全体的な差が小さく、バリアンスが小さければ、散らばりが小さいことがわかるので、双方を小さくしていきたいが、機械学習のアルゴリズムにおいては、
バイアスが大きい => 未学習
バリアンスが大きい => 過学習

を表していて、トレードオフの関係にある。

複数のモデルでの評価を多数決とって最終的な評価をする。

バギングとは「Bootstrap Aggregating」の略で一般的にモデルの予測結果のバリアンスを低くする特徴がある。

この手法では、データセット側を複数に分割して複数回学習を行う。

ブースティングは一般的にモデルの予測精度に対してバイアスを下げる特徴

この、手法では、学習器を複数個用いてつなぎ合わせる。