~手元データの要約、視覚化を超簡単に実現して、探索的データ解析(EDA)しよう(Sweetviz編)~
はじめに
「おい、悪いが”すぐに”このデータまとめてくれ」
このくだりので始める、探索的データ分析(EDA)を支援してくれるプロファイリングライブラリの紹介は3回目を迎えました。
今回は Sweetviz というライブラリを紹介します。
このライブラリはとにかくシンプルで、速攻でレポートが出力されます。
EDAの初手としてよいのではないでしょうか。
実行条件など
・Google colabで実行
・ボストン住宅価格のデータセットで実行
※手元データを読込んで実行する場合も記載していますので、簡単にできるはずです。
ボストン住宅価格のデータセットについて
以下サイト(Kaggle)の「Boston.csv」を使わせていただいた。
データ数:506, 項目数:14のデータセットで、住宅価格を示す「MEDV」という項目と、住宅価格に関連するであろう項目が「CRIM:犯罪率」「RM:部屋数」「B:町の黒人割合」「RAD:高速のアクセス性」・・・等、13項目で構成されたデータとなっています。
これだけ項目があると、データ傾向を掴むだけでも、なかなか骨が折れるだろうと想像できますね。
ボストン住宅価格データの項目と内容
|項目|内容|
|:-----------|:------------------|
|CRIM|町ごとの一人当たり犯罪率|
|ZN|25,000平方フィート以上の住宅地の割合|
|INDUS|町ごとの非小売業の面積の割合|
|CHAS|チャールズ川のダミー変数(川に接している場合は1、そうでない場合は0)|
|NOX|窒素酸化物濃度(1,000万分の1)|
|RM|1住戸あたりの平均部屋数|
|AGE|1940年以前に建てられた持ち家の割合|
|DIS|ボストンの5つの雇用中心地までの距離の加重平均|
|RAD|高速道路(放射状)へのアクセス性を示す指標|
|TAX|10,000ドルあたりの固定資産税の税率|
|PTRATIO|町ごとの生徒数と教師数の比率|
|B|町ごとの黒人の割合|
|LSTAT|人口の下層階級の比率|
|MEDV|住宅価格の中央値(1000㌦単位)|
プロファイリング(Sweetviz)してみよう!
ライブラリのインストールおよびインポート
pip install sweetviz
# 必要なライブラリーのインポート
import pandas as pd
import sweetviz as sv
# データセットの読込み
df = pd.read_csv("Boston.csv",index_col=0)
df.head()
#dfに対してSweetvizを適用
sweet_report = sv.analyze(df)
#結果をhtmlへ保存
sweet_report.show_html('sweetviz_report.html')
出力イメージ
Sweetvizは実行が完了すると、レポートをhtml形式で出力されます。
これをブラウザで読むと、閲覧・操作ができます。
プロファイルの結果はシンプルです。データ量が多くてもストレスなく実行できるでしょう。
画面上の [ASSOCIATION] ボタンをクリックすると、画面右に相関マトリクスが表示されます。
それぞれの変数をクリックすると、画面右にヒストグラムや他の変数との相関係数が表示されます。
関連記事
参考サイト