LoginSignup
3
4

More than 1 year has passed since last update.

「”すぐ” このデータまとめて欲しい」に ”すぐ”に超簡単に応えられる Python の・・・(Sweetviz編)

Last updated at Posted at 2021-09-18

~手元データの要約、視覚化を超簡単に実現して、探索的データ解析(EDA)しよう(Sweetviz編)~

sweetviz.png

Open In Colab
※クリックでGoogle Colab起動。ランタイム実行、[ファイル選択] でcsvファイル指定

はじめに

 
「おい、悪いが”すぐに”このデータまとめてくれ」
 
このくだりので始める、探索的データ分析(EDA)を支援してくれるプロファイリングライブラリの紹介は3回目を迎えました。

今回は Sweetviz というライブラリを紹介します。

このライブラリはとにかくシンプルで、速攻でレポートが出力されます。
EDAの初手としてよいのではないでしょうか。

実行条件など

Google colabで実行
ボストン住宅価格のデータセットで実行
※手元データを読込んで実行する場合も記載していますので、簡単にできるはずです。

ボストン住宅価格のデータセットについて

以下サイト(Kaggle)の「Boston.csv」を使わせていただいた。
データ数:506, 項目数:14のデータセットで、住宅価格を示す「MEDV」という項目と、住宅価格に関連するであろう項目が「CRIM:犯罪率」「RM:部屋数」「B:町の黒人割合」「RAD:高速のアクセス性」・・・等、13項目で構成されたデータとなっています。

これだけ項目があると、データ傾向を掴むだけでも、なかなか骨が折れるだろうと想像できますね。

ボストン住宅価格データの項目と内容

|項目|内容|
|:-----------|:------------------|
|CRIM|町ごとの一人当たり犯罪率|
|ZN|25,000平方フィート以上の住宅地の割合|
|INDUS|町ごとの非小売業の面積の割合|
|CHAS|チャールズ川のダミー変数(川に接している場合は1、そうでない場合は0)|
|NOX|窒素酸化物濃度(1,000万分の1)|
|RM|1住戸あたりの平均部屋数|
|AGE|1940年以前に建てられた持ち家の割合|
|DIS|ボストンの5つの雇用中心地までの距離の加重平均|
|RAD|高速道路(放射状)へのアクセス性を示す指標|
|TAX|10,000ドルあたりの固定資産税の税率|
|PTRATIO|町ごとの生徒数と教師数の比率|
|B|町ごとの黒人の割合|
|LSTAT|人口の下層階級の比率|
|MEDV|住宅価格の中央値(1000㌦単位)|

プロファイリング(Sweetviz)してみよう!

ライブラリのインストールおよびインポート

ライブラリのインストールおよびインポート
pip install sweetviz
# 必要なライブラリーのインポート
import pandas as pd
import sweetviz as sv

# データセットの読込み
df = pd.read_csv("Boston.csv",index_col=0)
df.head()
#dfに対してSweetvizを適用
sweet_report = sv.analyze(df)
 
#結果をhtmlへ保存
sweet_report.show_html('sweetviz_report.html')

出力イメージ

Sweetvizは実行が完了すると、レポートをhtml形式で出力されます。
これをブラウザで読むと、閲覧・操作ができます。
プロファイルの結果はシンプルです。データ量が多くてもストレスなく実行できるでしょう。

画面上の [ASSOCIATION] ボタンをクリックすると、画面右に相関マトリクスが表示されます。
image.png

それぞれの変数をクリックすると、画面右にヒストグラムや他の変数との相関係数が表示されます。
image.png

関連記事

参考サイト

3
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
4