データ処理手順
データ数値変換 データがture,falseや地域、性別など 数値に変換
データ欠損確認 欠損値多い軸消すか平均で補間
データ標準化 正規化か標準化する
主成分分析 次元削除 テストデータに対しても行う
LGBM 精度確認
主成分分析
FilterMethod
説明変数に影響を与えない軸消す
相関が高い軸消す
Wrapper Method
特徴量を選択しそれぞれにおいて性能評価し適切な軸を選ぶ
Emedded Method
特徴量選択をモデルの学習時に行う
Filter Methodでは計算することのできなかった変換の関係も、この手法で計算することができます。また学習時に探索するため、Wrapper Methodよりも計算コストはかなり低い
手順は
モデルを学習させる
特徴量の重要度を算出する
重要でない特徴量を削除する
教師あり学習
フォレスト 回帰、分類
サポートベクトルマシン 分類
線形回帰 回帰
フォレスト 教師あり学習
バギング
弱分類器を複数用意し、アンケートで分類する ランダムフォレスト
ブースト
1つの分類器を使用し誤差が小さくなるように予測値を更新する。
XGBoost,LGBM
特徴量の重要度出すことができる。