ランダムフォレスト回帰とは
- 決定木を複数組み合わせて予測を行うアンサンブル学習手法。
- 各木は異なるデータのサブセットと特徴量で学習し、予測値の平均を使って最終出力を決定。
- 過学習を防ぎやすく、非線形や外れ値に強い。
RandomForestRegressorの主なハイパーパラメータ
パラメータ名 | 役割・説明 |
---|---|
n_estimators | 決定木の数。予測精度と計算コストのバランスに影響 |
max_depth | 木の最大深さ。過学習防止・表現力調整 |
max_features | 分割時の特徴量数。木ごとの多様性増加に寄与 |
min_samples_split | ノード分割の最小サンプル数 |
min_samples_leaf | 葉ノードの最小サンプル数。簡素なモデルに |
bootstrap | 標本抽出方法(通常True) |
n_jobs | 並列処理数指定(高速化向け) |
random_state | 乱数シード(再現性確保用) |
n_estimators(木の数)
- n_estimatorsは「決定木の本数」を表す。
- 「データセットの分割回数」ではなく、「何個の異なる視点で分析するか」を決めるもの。
- 各木は重複サンプル・未使用サンプルが出る「ランダムな部分集合」で学習。
サンプルの含まれ方(ブートストラップサンプリング)
木ごとに含まれるサンプルは異なる。
-
n個のサンプルからn回復元抽出するとき、各サンプルが1回も選ばれない確率は $$(1 - \frac{1}{n})^n$$
-
nが大きいとき、この値は $$\frac{1}{e} \approx 36.8%$$
-
つまり、
- どの木にも含まれない(OOB: Out of Bag)確率:約36.8% →評価に使える(※)
- 各サンプルが1本の木に含まれる確率:約63.2%
※ OOBサンプル評価の注意点
- OOB誤差率は実行ごとにややブレるため、木の本数や乱数シード調整が有効。
- OOBサンプルの分布が均等とは限らず、真の汎化誤差とズレることもある。
- アンサンブル型以外では使えず、クロスバリデーションと補完するのがベター。
- 特徴量重要度評価などモデル目的・指標の解釈にも注意。