LoginSignup
0
0

More than 3 years have passed since last update.

[Kaggle] ep.X - 欠損値の扱い

Posted at

tldr

欠損値の扱いについて勉強しました。

欠損値

何らかの理由で値が入っていないデータのこと

単に空欄の場合もあるし「ゼロ値」の場合もある。

欠損している理由

  • 値が存在しない
  • 意図がある
  • 取得に失敗した

対処法

そのまま取り扱う

GBDTライブラリとかは欠損値を埋めずにそのまま取り扱うことが可能。

代表値で埋める

平均値などの分布を代表する値で埋める。

他の変数から予測する

欠損している変数が他の変数と関連がある場合は、予測した値で埋める。

欠損値から新たな特徴量を作成する

欠損値がランダムではない場合、欠損していることが特徴量となりうる。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0