0

ランダムフォレスト回帰とそのサンプリング

Posted at 2025-09-08

ランダムフォレスト回帰とは

決定木を複数組み合わせて予測を行うアンサンブル学習手法。
各木は異なるデータのサブセットと特徴量で学習し、予測値の平均を使って最終出力を決定。
過学習を防ぎやすく、非線形や外れ値に強い。

RandomForestRegressorの主なハイパーパラメータ

パラメータ名	役割・説明
n_estimators	決定木の数。予測精度と計算コストのバランスに影響
max_depth	木の最大深さ。過学習防止・表現力調整
max_features	分割時の特徴量数。木ごとの多様性増加に寄与
min_samples_split	ノード分割の最小サンプル数
min_samples_leaf	葉ノードの最小サンプル数。簡素なモデルに
bootstrap	標本抽出方法（通常True）
n_jobs	並列処理数指定（高速化向け）
random_state	乱数シード（再現性確保用）

n_estimators（木の数）

n_estimatorsは「決定木の本数」を表す。
「データセットの分割回数」ではなく、「何個の異なる視点で分析するか」を決めるもの。
各木は重複サンプル・未使用サンプルが出る「ランダムな部分集合」で学習。

サンプルの含まれ方（ブートストラップサンプリング）

木ごとに含まれるサンプルは異なる。

n個のサンプルからn回復元抽出するとき、各サンプルが1回も選ばれない確率は $$(1 - \frac{1}{n})^n$$
nが大きいとき、この値は $$\frac{1}{e} \approx 36.8%$$
つまり、
- どの木にも含まれない（OOB: Out of Bag）確率：約36.8%　→評価に使える（※）
- 各サンプルが1本の木に含まれる確率：約63.2%

※ OOBサンプル評価の注意点

OOB誤差率は実行ごとにややブレるため、木の本数や乱数シード調整が有効。
OOBサンプルの分布が均等とは限らず、真の汎化誤差とズレることもある。
アンサンブル型以外では使えず、クロスバリデーションと補完するのがベター。
特徴量重要度評価などモデル目的・指標の解釈にも注意。

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0