概要
今回は相関関係を数値し、それを可視化する方法です。
他にも「Learn Python In Seminar」のシリーズとして書いているので、よければご覧ください!
用語
相関(correlation)
変数間の関係
相関係数
- 相関の度合いを表す
- -1から1の範囲で表現
- -1/1に近いほど相関が強く、0に近いほど相関が弱い
- プラスであれば正の相関、マイナスであれば負の相関
数値化
インポート
import pandas
import seaborn as sns
from matplotlib impot pyplot as plt
相関係数
Pandasライブラリのcorr関数で相関係数を確認可能
DataFrame.corr()
可視化
散布図
- 2変数からなる1組のデータを点で表現した図
- 量的データ同士の相関
Matplotlibライブラリのplt.scatter関数
plt.scatter(横軸のデータ, 縦軸のデータ)
plt.show()
箱ひげ図
- 最大値、最小値、四分位数の情報が含まれた図
- 質的データと質的データの相関
Seabornライブラリのboxplot関数
sns.boxplot(横軸のカラム, 縦軸のカラム, data=分析対象データのDataFrame)
ヒートマップ
- 数値の大小は色の濃淡で表現した図
- Seabornライブラリのheatmap関数
sns.heatmap(DataFrame)
plt.show()
注意点
相関関係=因果関係ではない!
詳しくはこちら