初めに
私はいつも視覚的・定性的にデータをさらっと見る時は
seabornのpairplotで多変量連関図を描いて
確認することが多いのですが、最近はLUXです。
Jupyterユーザーの方でデータの可視化の時に
lux-APIを使ってますでしょうか?それともご存じないでしょうか?
LUXのインストール
Anaconda promtを起動し、下記を実行します。
# LUX-APIインストール
conda install -c conda-forge lux-api
# Jupyter notebookに機能を追加
jupyter nbextension install --py luxwidget
jupyter nbextension enable --py luxwidget
pipでインストールする場合は、下記とのこと。
私の環境下ではうまくいきませんでしたが・・・ご参考
pip install lux-api
LUX-API実行
# ライブラリのインポート
import lux
import pandas as pd
# データインポート
data_train = pd.read_csv('train.csv')
# LUX-API実行
data_train
Toggle Pandas/Lux
をクリックするだけで
簡単にデータが可視化できる。
Correlation Plot
まずはCorrelation Plot
である
水平方向のスライダーを移動させることで
すべての因子の組み合わせの散布図を確認することが出来る
これにより2因子間の相関の有無を視覚的に確認することができる
Distribution
特定の1因子の詳細を確認する
data_train.intent=["MedInc"]
data_train
今回の例では特定の1因子をMedIncとしたときの実行例を示す
横軸にユーザーが指定した任意の因子が固定され詳細を確認することが出来る
特定の2因子の詳細を確認する
data_train.intent=["MedInc","HouseAge"]
data_train
この場合、縦横はユーザーが指定した2因子となり、カラースケールがその他の因子でプロットされる3次元プロットとなる。これも視覚的にデータ分析する際に有効だろう
htmlで保存する
分析結果もhtml形式で保存できるので重宝すると思います
data_train.save_as_html("sample.html")
最後に
いろいろなAPIがあると思います。
皆さんのおススメ等あれば教えてください
以上 最後までお読みいただきありがとうございました