はじめに
データ分析において、データの欠損は一番初めに立ちはだかる課題の一つです。より良いモデルを作るには、欠損値を予め把握し処理してあげる必要があります。
Missingnoは欠損値を効果的に可視化することで、データの前処理をより効率的にすることを可能にします。
1. Missingnoのインストール
pip install missingno
で Missingnoをインストールします。
2. Missingno を使ってみる
MissingnoはPythonのPandasデータで利用できます。
データはKaggleのTitanicデータを使用します。
import missingno as msno
import pandas as pd
msno.matrix(df)
欠損値がデータ全体のどこに分布しているのががわかります。
msno.bar(df)
各特徴量でどれくらい欠損値があるのかがわかります。
msno.heatmap(df)
欠損値における特徴量間の相関度を表したヒートマップです。
msno.dendrogram(df)
最後に、欠損値の分布で特徴量をまとめた結果です。
詳しくはこちら をご参照ください。