Pythonで簡単に欠損値解析！missingnoライブラリの使い方

Posted at 2024-07-04

データ解析で避けて通れないのが欠損値の問題。今回は、Pythonのmissingnoライブラリを使って、データセットの欠損値を可視化する方法を紹介します。Kaggleのタイタニックデータセットを例に取り、具体的な使い方を解説します。

欠損値の種類

kaggleのtitanicデータを使用して可視化してみます。まずはライブラリをインポートし、データを読み込みます。

titanicのデータはkaggleから予めダウンロードしています(ファイル名:train.csv)

#ライブラリのインポート
import pandas as pd
import missingno as msno

#データをロード
train=pd.read_csv('train.csv')
train.head()

import missingno as msno
msno.bar(df)

msno.matrix(df)

msno.dendrogram(df)

msno.heatmap(df)

欠損値の可視化により、データの前処理がスムーズに進み、解析の精度が向上します。missingnoライブラリを活用して、欠損データのパターンを理解し、より良いデータ解析を目指しましょう！