LoginSignup
0
1

More than 3 years have passed since last update.

【データサイエンス備忘録】 欠損値の取り扱い 【python】

Last updated at Posted at 2021-01-18

欠損値の有無を確認する。

isnull()関数を使用する。
DataFrameが代入された変数.isnull()
もし欠損値が含まれていればTrue、含まれていなければFalseとなる。

欠損値の個数を確認する

isnull()関数とsum()関数を使用する。
DataFrameが代入された変数.isnull().sum()

欠損値の削除

dropna()関数を使用する。
DataFrameが代入された変数.dropna()
dropna()関数を利用した後は、別の変数に代入するか、inplace=Trueというdropnaの引数を付け加え、実行したらそのまま変数を書き換える。

  1. data = data.dropna()
  2. data.dropna(inplace=True)
  3. data = data.dropna(inplace=True)

特定のカラムが欠損値を含むデータを削除する場合は、
DataFrame.dropna(subset=[‘カラム名’])

欠損値の補完

fillna()関数で特定のカラムの欠損値をある値で補完する。
DataFrameを代入した変数['カラム'].fillna(値)

fillna()関数で特定のカラムの欠損値をある値で補完する。
DataFrameを代入した変数['カラム'].fillna(値)

特定のカラムをそのカラムの平均値で補完する。
DataFrameを代入した変数['カラム'].fillna(np.mean(DataFrameを代入した変数['カラム']), inplace=True)

特定のカラムをそのカラムの中央値で補完する。
DataFrameを代入した変数['カラム'].fillna(DataFrameを代入した変数['カラム'].median(), inplace=True)

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1