Help us understand the problem. What is going on with this article?

【Pythonメモ】pandas-profilingが探索的データ解析にめちゃめちゃ便利だった件

More than 1 year has passed since last update.

当たり前の話だったら超恥ずかしいのですが、初めて知って驚愕したのでご紹介。

タイトルのとおり、pandas-profilingが探索的データ解析(EDA)にめちゃめちゃ便利だったのでご紹介するだけの記事です。

pandas-profilingの詳細はこちらからご確認を。
pandas-profiling

準備

pipやAnacondaを使うなどして、適宜ご自身の環境にインストール。

pip install pandas-profiling

あとはインポートするだけ。

import pandas as pd
import pandas_profiling as pdp

実行

みんな大好きTitanicのtrainデータを使用。
なんの前処理もかけずに実行してみる。

df = pd.read_csv('train.csv')
pdp.ProfileReport(df)

Output

こんな感じでデータの全体像をHTMLで出力してくれます。便利。

画像
pandas-profiling01.jpg


pandas-profiling02.jpg


pandas-profiling03.jpg

gif

test.gif

データフレームの構造に、データ型別の基本統計量とグラフ、
数値データはピアソンの積率相関とスピアマンの順位相関といったところでしょうか。

膨大な説明変数があると大変そうですが、
1行のコードでここまで出してくれるのはEDAが捗りそうですねぇ。

また、以下でHTMLファイルの作成も可能。

profile = pdp.ProfileReport(df)
profile.to_file(outputfile="myoutputfile.html")

注意

Colaboratoryでやると表示、挙動が不安定でした。
Kaggle KernelはOK。

Colaboratoryでは何か方法があるかもしれません。
IT詳しい方、ご存知でしたら教えてください。

補足(2018/05/06追記)

プロフェッショナルの方がcolaboratory挙動の解決策記事を書いてくれています!
HTMLファイルを生成して、埋め込む感じでうまくいくようです!

pandas-profilingが探索的データ解析にめちゃめちゃ便利だった件 - GoogleColab編

h_kobayashi1125
データアナリスト オープンデータやデータビジュアライゼーション、機械学習などに取り組んでます。
http://kopaprin.hatenadiary.jp/
Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした