pandas-profilingとは?
pandas-profiling は、pandas の DataFrame のプロファイリング結果をまとめて出力できるライブラリです。
DataFrame の基本的な統計量や相関係数などを一度にまとめて確認でき非常に便利です。
特徴
・ 使いやすい(1行のコードで実行可・パラメータ設定不要)
・ 手っ取り早く多角的にデータを解析してくれる
・ グラフを出力しビジュアル面でも分かりやすい
参照元データ
Github : https://github.com/pandas-profiling/pandas-profiling
Demo : https://nbviewer.jupyter.org/github/JosPolfliet/pandas-profiling/blob/master/examples/meteorites.ipynb
インストール〜実行
データはKaggleのTitanicのTrainデータを使用します
https://www.kaggle.com/c/titanic/data
# 未インストールの場合はpipでインストール
pip install pandas-profiling
# ライブラリをインポート
import pandas as pd
import pandas_profiling
# データファイルを読み込む
df = pd.read_csv('titanic/train.csv')
# 実行
pandas_profiling.ProfileReport(df)
4つのセクションに分かれて分析結果が出力されます。




使ってみた感想
とにかくスピーディなのがいいですね。
これだけでは不十分ですが、ざっくりデータを分析する際に非常に便利です。
EDA (探索的データ解析) の第一歩として非常に有用だと感じました。
Kaggleなどのコンペでも1発目に使っていきたいです。