0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

ランダムフォレスト回帰とそのサンプリング

Posted at

ランダムフォレスト回帰とは

  • 決定木を複数組み合わせて予測を行うアンサンブル学習手法。
  • 各木は異なるデータのサブセットと特徴量で学習し、予測値の平均を使って最終出力を決定。
  • 過学習を防ぎやすく、非線形や外れ値に強い。

RandomForestRegressorの主なハイパーパラメータ

パラメータ名 役割・説明
n_estimators 決定木の数。予測精度と計算コストのバランスに影響
max_depth 木の最大深さ。過学習防止・表現力調整
max_features 分割時の特徴量数。木ごとの多様性増加に寄与
min_samples_split ノード分割の最小サンプル数
min_samples_leaf 葉ノードの最小サンプル数。簡素なモデルに
bootstrap 標本抽出方法(通常True)
n_jobs 並列処理数指定(高速化向け)
random_state 乱数シード(再現性確保用)

n_estimators(木の数)

  • n_estimatorsは「決定木の本数」を表す。
  • 「データセットの分割回数」ではなく、「何個の異なる視点で分析するか」を決めるもの。
  • 各木は重複サンプル・未使用サンプルが出る「ランダムな部分集合」で学習。

サンプルの含まれ方(ブートストラップサンプリング)

木ごとに含まれるサンプルは異なる。

  • n個のサンプルからn回復元抽出するとき、各サンプルが1回も選ばれない確率は $$(1 - \frac{1}{n})^n$$

  • nが大きいとき、この値は $$\frac{1}{e} \approx 36.8%$$

  • つまり、

    • どの木にも含まれない(OOB: Out of Bag)確率:約36.8% →評価に使える(※)
    • 各サンプルが1本の木に含まれる確率:約63.2%

※ OOBサンプル評価の注意点

  • OOB誤差率は実行ごとにややブレるため、木の本数や乱数シード調整が有効。
  • OOBサンプルの分布が均等とは限らず、真の汎化誤差とズレることもある。
  • アンサンブル型以外では使えず、クロスバリデーションと補完するのがベター。
  • 特徴量重要度評価などモデル目的・指標の解釈にも注意。
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?