量的変数の分布
シンプルなヒストグラム
matplotlib
import matplotlib.pyplot as plt
plt.hist(df['column1']) # 引数はcolumから選択
plt.xlabel('column1')
plt.ylabel('freq')
plt.show()
seaborn
import seaborn as sns
sns.set()
sns.distplot(df['column1'], kde=False, bins=10, color='blue')
# kernel density estimation(カーネル密度推定)
複数のヒストグラムを描画したい
・$X_n$が2値分類データ(binaryで0,1など)における、量的変数$Y$に対する分布
import seaborn as sns
df_0 = df[df["x"] == 0] # object型を指定したいときは =="object"
df_1 = df[df["x"] == 1]
sns.distplot(df_0["Y"], kde=False, bins=20, color="r")
sns.distplot(df_1["Y"], kde=False, bins=20, color="b")
質的変数の分布
カウントプロット
import seaborn as sns
sns.countplot(data=df,x="column2")
# カウントプロットを別のcolumnの値ごとに色分けする。
import seaborn as sns
sns.countplot(data=df,x="column2",hue="marital")