More than 5 years have passed since last update.

【Python】データ分析の序盤でよく使う手法メモ

Last updated at 2019-02-14Posted at 2019-02-09

Kaggleなどでデータ分析を行う際の探索的データ解析（EDA）の段階で、
データの構造を把握する目的で自分自身がよく使う便利な関数やライブラリをまとめました。

データはKaggleのTitanicのTrainデータを使用します
https://www.kaggle.com/c/titanic/data

import numpy as np
import pandas as pd

df = pd.read_csv('titanic/train.csv')

df.head()
# ()に行数を入力し出力行数を変更可能

df.describe()

df.describe(include = 'O')

df.info()

df.tail() #最後から5行表示
df.shape #(行数, 列数)を表示
df.size #データ数を表示
df.dtypes #データ型を表示
df.columns #列一覧を表示
df.corr() #全列の相関係数表示

2行のコードで、読み込むデータの様々な情報をグラフを含めて出力できます

import pandas_profiling #インポート
pandas_profiling.ProfileReport(df) #実行

別記事で詳しく解説しています
https://qiita.com/ryo111/items/705347799a984acd5d08

df.apply(lambda x: x.nunique())

df.isnull().sum()

目的変数を入力すれば、他の変数との相関関係をシンプルに出力できるので便利

df.corr()["Survived"].sort_values()

# 数値データのみ
df.select_dtypes(include=[np.number]).columns

# オブジェクトデータのみ
df.select_dtypes(include=[np.object]).columns

df["Embarked"].unique()

df['Embarked'].value_counts()

df.groupby('Sex').mean()

df.pivot_table(values='Survived', index='Sex', columns='Embarked', aggfunc='sum')

通常の分析では、ここからさらにグラフを活用しデータの構造をビジュアルで把握していきます。
その際の手法は下記リンク先の別記事でまとめておりますのでご覧ください。
https://qiita.com/ryo111/items/bf24c8cf508ad90cfe2e

その他、欠損値処理のまとめ記事もよろしければご覧ください。
https://qiita.com/ryo111/items/4177c732cc9801bccb17

361