欠損値の有無を確認する。
**isnull()**関数を使用する。
DataFrameが代入された変数.isnull()
もし欠損値が含まれていればTrue、含まれていなければFalseとなる。
欠損値の個数を確認する
**isnull()関数とsum()**関数を使用する。
DataFrameが代入された変数.isnull().sum()
欠損値の削除
**dropna()**関数を使用する。
DataFrameが代入された変数.dropna()
dropna()関数を利用した後は、別の変数に代入するか、inplace=True
というdropnaの引数を付け加え、実行したらそのまま変数を書き換える。
data = data.dropna()
data.dropna(inplace=True)
data = data.dropna(inplace=True)
特定のカラムが欠損値を含むデータを削除する場合は、
DataFrame.dropna(subset=[‘カラム名’])
欠損値の補完
**fillna()**関数で特定のカラムの欠損値をある値で補完する。
DataFrameを代入した変数['カラム'].fillna(値)
fillna()関数で特定のカラムの欠損値をある値で補完する。
DataFrameを代入した変数['カラム'].fillna(値)
特定のカラムをそのカラムの平均値で補完する。
DataFrameを代入した変数['カラム'].fillna(np.mean(DataFrameを代入した変数['カラム']), inplace=True)
特定のカラムをそのカラムの中央値で補完する。
DataFrameを代入した変数['カラム'].fillna(DataFrameを代入した変数['カラム'].median(), inplace=True)