6
12

More than 3 years have passed since last update.

【Python】Missingno を使って欠損値を可視化

Last updated at Posted at 2020-03-07

はじめに

データ分析において、データの欠損は一番初めに立ちはだかる課題の一つです。より良いモデルを作るには、欠損値を予め把握し処理してあげる必要があります。
Missingnoは欠損値を効果的に可視化することで、データの前処理をより効率的にすることを可能にします。

1. Missingnoのインストール

pip install missingno

で Missingnoをインストールします。

2. Missingno を使ってみる

MissingnoはPythonのPandasデータで利用できます。
データはKaggleのTitanicデータを使用します。

import missingno as msno
import pandas as pd
msno.matrix(df)

download.png

欠損値がデータ全体のどこに分布しているのががわかります。

msno.bar(df)

download (1).png

各特徴量でどれくらい欠損値があるのかがわかります。

msno.heatmap(df)

download (2).png

欠損値における特徴量間の相関度を表したヒートマップです。

msno.dendrogram(df)

download (3).png

最後に、欠損値の分布で特徴量をまとめた結果です。

詳しくはこちら をご参照ください。

6
12
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
12