最近Pandas Profilingという便利なライブラリがあることを知りました。
備忘録も兼ねて使い方をまとめておきたいと思います。
インストール方法
pip, condaいずれでもインストール可能です。
pipの場合
condaの場合
実行方法
試しにsklearnのBoston Housingデータを使ってみました。
# 使用するライブラリ
import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport
from sklearn.datasets import load_boston
まずはBoston Housingデータをデータフレーム化します。
boston = load_boston()
df = pd.DataFrame(boston.data, columns=boston.feature_names)
このデータフレームをProfileReport
に入れることで、データ全体の相関など様々な統計量を表示してくれます。
ProfileReport(df)
jupyter notebook上に表示された結果の一部。変数の個数だけでなく、dfの行数や欠損値、重複行の有無なども教えてくれます。
出力結果のgif。変数間の相関なども可視化されています。
最後に、得られた結果はhtmlやjsonとして保存ができます。
profile = ProfileReport(df)
profile.to_file('boston.html')