特徴量エンジニアリング
『元のデータセットから有用な情報を抽出し、モデルに適した形で入力データ(特徴量)を作成するプロセス』
つまり、データを モデルにとって価値のある特徴量 に変換します。
特徴量エンジニアリングのステップ
Step1.特徴量の選択
元データからモデルにとって関連性が高い変数を選び、不必要なものを除外します。
Step2.特徴量の変換
データのスケール変換(例: 正規化、標準化)やカテゴリデータのエンコーディングなどを行います。
Step3.特徴量の生成
既存のデータから新しい特徴量を作成する(例: 日付データから月や曜日を抽出、複数の変数を掛け合わせるなど)。
特徴量エンジニアリングが重要な理由
- モデルがデータの重要なパターンを捉えやすくなリます。
- 適切な特徴量を用いることで、過学習を防止し、汎化性能が向上します。
- 学習効率を高め、トレーニング時間を短縮します。