4
13

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

探索的データ分析の第一歩に便利なpandas-profilingの導入と概要

Posted at

はじめに

機械学習のデータの前処理工程において、pandas等を用いて、いろいろとデータを眺めながら探索的データ分析をすると思いますが、データの可視化を1コマンドで簡単にやってくれるツール「pandas-profiling」というものがあるので、それを紹介します。

導入

ターミナル
$ pip install pandas-profiling

#ライブラリインポート

import pandas as pd
import pandas_profiling as pdp

#仕様
タイタニックのデータで試してみます。タイタニックがわからない人は「kaggle タイタニック」で調べて下さい。

dataframe = pd.read_csv('train.csv')

コマンドは1文のみです。

pdp.ProfileReport(dataframe)

出力結果は結構なボリュームなのでhtmlファイルに落とす方が見やすいです。

html = pdp.ProfileReport(dataframe)
html.to_file(output_file='dump.html')

#アウトプット
##Overview
データの概要を教えてくれます。列数(Number of variables)、行数(Number of observations)、欠損値数(Missing cells)、重複列(Duplicate rows)
image.png

##Variables
各項目(列)毎のデータ概要を教えてくれます。年齢(Age)のアウトプット例です。
image.png
image.png

##Interactions
列と列の関係を教えてくれます。年齢と運賃のアウトプット例です
image.png

##Correlations
列と列との相関を教えてくれます。
image.png

##Missing values
欠損値の情報を教えてくれます。
image.png

#最後に
初心者にもわかるように、Pythonで機械学習を実施する際の必要な知識を簡便に記事としてまとめております。
目次はこちらになりますので、他の記事も参考にして頂けると幸いです。

4
13
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
13

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?