これは何か
EDAする時に自分が初手によくやっていることをまとめる。今、雑にまとめたいだけなのだが、追々ちゃんと整理する。
事前準備
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import matplotlib.style as style
style.use('fivethirtyeight')
import seaborn as sns
import os
全体概観
欠損値確認
print(train.isnull().sum())
print(f'train data: {len(train)}')
要約統計量の確認
train.describe()
単変量解析
histgram
sns.distplot(train['col_name'], bins=100, kde=False)
plt.show()
棒グラフ
value_counts = train['col_name'].value_counts()
value_counts.name = 'col_name count'
sns.countplot(value_counts)
plt.show()
多変量解析
追記予定