はじめに
Sweetvizを使って乳がんのデータを可視化してみました。
sklearn.datasets.load_breast_cancer — scikit-learn 1.1.0 documentation
この記事はSweetvizのAssociationsに関するメモです。
Sweetvizとは
探索的データ解析(EDA)に使われるツールの一つです。
データセットを見やすく表示してくれます。
使い方
こんな感じで使います。
import sweetviz as sv
my_report = sv.analyze(df, 'target')
my_report.show_html()
Associationsの読み方
Associationsからは、数値相関だけでなく、不確実性係数1、相関比2を読み取ることができます。
- 四角
- 質的変数(カテゴリー)との相関比
- 丸
- 量的変数同士の量的相関
青 | 赤 | |
---|---|---|
四角 | 色が濃いほど、そのカテゴリーの割合が高い | 色が濃いほど、そのカテゴリーの割合が低い |
丸 | 色が濃いほど、その数値が大きくなる | 色が濃いほど、その数値が低くなる |
注意点
カテゴリー同士の比較の場合、不確実係数が表示されます。その場合、線対称にならないので、注意が必要です。