More than 3 years have passed since last update.

データの全体像を見るときはPandas Profilingが便利

Posted at 2021-10-05

最近Pandas Profilingという便利なライブラリがあることを知りました。
備忘録も兼ねて使い方をまとめておきたいと思います。

インストール方法

pip, condaいずれでもインストール可能です。

pipの場合

condaの場合

試しにsklearnのBoston Housingデータを使ってみました。

# 使用するライブラリ
import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport
from sklearn.datasets import load_boston

まずはBoston Housingデータをデータフレーム化します。

boston = load_boston()
df = pd.DataFrame(boston.data, columns=boston.feature_names)

このデータフレームをProfileReportに入れることで、データ全体の相関など様々な統計量を表示してくれます。

ProfileReport(df)

jupyter notebook上に表示された結果の一部。変数の個数だけでなく、dfの行数や欠損値、重複行の有無なども教えてくれます。

出力結果のgif。変数間の相関なども可視化されています。

最後に、得られた結果はhtmlやjsonとして保存ができます。

profile = ProfileReport(df)
profile.to_file('boston.html')