# ライブラリの読み込み
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

%matplotlib inline

データの詳細

今回用いるデータはタイタニック号の乗船者名簿です。

PassengerID:　乗客ID
Survived: 　　生存結果 (0=死亡 , 1=生存)
Pclass: 　　　乗客の階級(1が最も良いらしい)
Name: 　　 　 乗客の名前
Sex: 　　　　 性別
Age: 　　　　 年齢
SibSp 　　 　 兄弟、配偶者の数
Parch 　　　　両親、子供の数
Ticket 　　　 チケット番号
Fare 　　　　 乗船料金
Cabin 　　　　部屋番号
Embarked 　　 乗船した港

titanic_train.csvと言うファイルがあると想定してください。

ファイルの読み込み

pandasライブラリではread_xxxと言うファイル形式に合わせた読み込みメソッドがたくさんあるのでそれを用いてファイルを読み込みします。今回はCSVファイルなのでread_csvです。

pandasライブラリは表形式のデータフレームと言うデータ形式を取り扱うライブラリです。
データフレームにファイルを読み込みします。

# ファイルからデータの読み込み
file_path = 'data/titanic_train.csv'
train_df = pd.read_csv(file_path,encoding='utf-8')
train_df.head()

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22	1	A/5 21171	7.25	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38	1	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26	0	STON/O2. 3101282	7.925	NaN	S
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35	1	113803	53.1	C123	S
4	5	0	3	Allen, Mr. William Henry	male	35	0	373450	8.05	NaN	S

こんな感じのデータです。
データフレームでは行と列でデータの操作を行えます。

データの確認

まずはデータフレームの確認をします。
どんなカラムが有るかをみていきます。


print(train_df.columns)
print(len(train_df.columns))

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
dtype='object')
12

次にデータ型の確認です。pandasライブラリでは列ごとにデータの型が決まっています。
型に合わせて操作をする必要があります。

train_df.dtypes

PassengerId int64
Survived int64
Pclass int64
Name object
Sex object
Age float64
SibSp int64
Parch int64
Ticket object
Fare float64
Cabin object
Embarked object
dtype: object

objectは文字列などのデータ型、他は数値のデータ型になっています。

列の参照
データフレームでは列ごとにデータを参照することもできます。
1列の場合は文字列で、複数列の場合はリスト型の列名で指定するとそのデータだけを参照できます。

データフレーム[列名]
データフレーム[[列名,列名]]

データフレームの基礎集計

データをもらってまずやることといえば、基礎集計です。
pandasではデータフレームの基本統計量の算出を行うことができます。

# 数値データの基礎統計
train_df.describe()

	PassengerId	Survived	Pclass	Age	SibSp	Parch	Fare
count	891	891	891	714	891	891	891
mean	446	0.383838	2.308642	29.699118	0.523008	0.381594	32.204208
std	257.353842	0.486592	0.836071	14.526497	1.102743	0.806057	49.693429
min	1	0	1	0.42	0	0	0
25%	223.5	0	2	20.125	0	0	7.9104
50%	446	0	3	28	0	0	14.4542
75%	668.5	1	3	38	1	0	31
max	891	1	3	80	8	6	512.3292

数値型の列の基本統計量が出ます。
データがどれくらいあるか、どんな感じのデータなのかを見ることができます。

データの種類の確認
文字列型のデータは基礎集計はできないので、どういうカテゴリのデータがどれくらいの量あるのかは
value_countsというメソッドで算出できます。

データフレーム['列名'].value_counts()

train_df['Pclass'].value_counts()

3 491
1 216
2 184
Name: Pclass, dtype: int64

グループバイ集計

複数の列を用いて集計を行う場合はgroupbyを用います。

データフレーム[['列名','列名','列名']].groupby(['列名','列名']).集計関数()

# 男女別で生存数の確認(0:死亡 , 1:生存)
train_df[['Sex','Survived','PassengerId']].groupby(['Sex','Survived']).count()

		PassengerId
Sex	Survived
female	0	81
	1	233
male	0	468
	1	109

グループバイ集計では様々な集計を行えます。(平均、最小値、最大値など)

これで見ると、女性の生存割合と、男性の生存割合ではかなり差が出ているように見えます。
男性はSurvived=0が多く圧倒艇に亡くなっているのが見えます。

クロス集計

複数列をまとめてクロス集計(個数のカウント)を行うことが出来ます。

pd.crosstab(データフレーム[列名],データフレーム[列名])

pd.crosstab([データフレーム[列名],データフレーム[列名]],[データフレーム[列名],データフレーム[列名]])
※margins=True をつけると合計も表示する

pd.crosstab([train_df['Sex'], train_df['Survived']], train_df['Pclass'])

	Pclass	1	2	3
Sex	Survived
female	0	3	6	72
	1	91	70	72
male	0	77	91	300
	1	45	17	47

pd.crosstab([train_df['Sex'], train_df['Survived']], [train_df['Pclass'], train_df['Embarked']],margins=True)

	Pclass	1			2			3
	Embarked	C	Q	S	C	Q	S	C	Q	S
Sex	Survived
female	0	1	0	2	0	0	6	8	9	55
	1	42	1	46	7	2	61	15	24	33
male	0	25	1	51	8	1	82	33	36	231
	1	17	0	28	2	0	15	10	3	34
All		85	2	127	17	3	164	66	72	353

こういった列ごとの集計を行ったりして、どんなデータなのかをのぞいていきます。

データの可視化

matplotlibを用いるとデータの可視化を行うことが出来ます。

図表はヒストグラムや棒グラフ、散布図などをデータから作ることが出来ます。
ヒストグラムを描いてみましょう。

ヒストグラムは横軸を値、縦軸をその個数、とした際の図表になります。
ビンはデータを段階で区分けする際の段回の数です。

ヒストグラムを表示する

データフレーム['列名'].plot(kind='hist',bin=ビンの数)

データフレーム['列名'].hist(bin=ビンの数)

※figsize=(横幅, 縦幅)を加えると図表のスケールを変更できる

train_df['Fare'].plot(figsize=(16, 5),kind='hist',bins=20)
plt.show()

train_df['Age'].plot(figsize=(16, 5),kind='hist',bins=20)
plt.show()

条件指定

データフレームに抽出条件を加えることで、可視化するものを層別で分けることが出来ます。

データフレーム[条件式]['列名']
※データフレームの条件式は下記の記号で複数条件をつなげることが出来る

条件	記号
and条件の場合	&
or条件の場合	\|
not条件の場合	~

# 条件指定でデータフレームを抽出する
train_df[train_df['Survived']==0]['Age'].head()

0 22.0
4 35.0
5 NaN
6 54.0
7 2.0
Name: Age, dtype: float64

# 年齢別で生存者と死亡者を分けてヒストグラムを描く
train_df[train_df['Survived']==0]['Age'].hist(figsize=(16,5),bins=16,color="#F8766D", alpha=0.3)
train_df[train_df['Survived']==1]['Age'].hist(figsize=(16,5),bins=16,color="#5F9BFF", alpha=0.3)
plt.show()

# 男性のみ年齢別で生存者と死亡者を分けてヒストグラムを描く
train_df[(train_df['Survived']==0)&(train_df['Sex']=='male')]['Age'].hist(figsize=(16,5),bins=10,color="#F8766D", alpha=0.3)
train_df[(train_df['Survived']==1)&(train_df['Sex']=='male')]['Age'].hist(figsize=(16,5),bins=10,color="#5F9BFF", alpha=0.3)
plt.show()

# 女性のみ年齢別で生存者と死亡者を分けてヒストグラムを描く
train_df[(train_df['Survived']==0)&(train_df['Sex']=='female')]['Age'].hist(figsize=(16,5),bins=10,color="#F8766D", alpha=0.3)
train_df[(train_df['Survived']==1)&(train_df['Sex']=='female')]['Age'].hist(figsize=(16,5),bins=10,color="#5F9BFF", alpha=0.3)
plt.show()

いろいろな集計の結果を可視化してあげると違いが見やすくなり、データの中から予測に効きそうな物が発見しやすくなります。

男性の分布と女性の分布では生死にかなり差が出ているのが分かります。

次に散布図を表示してみます。

散布図を表示する

散布図はscatterです。二つの数値を用いての可視化なので何かしらの数値の列を二つ指定をします。

データフレーム[['列名','列名']].plot(x='横方向の列名', y='縦方向の列名' , kind='scatter')
※figsize=(横幅, 縦幅)を加えると図表のスケールを変更できる
日本語は設定しないと表示されないので注意

train_df[['Fare','Age']].plot(x='Fare', y='Age', figsize=(16, 9),kind='scatter')
plt.show()

性別で色づけしたいのですが、データは文字列なので数値する必要があります。
1列追加して、種別を数値に直した値を代入します。

データフレームの列の追加

データフレーム['列名'] = 値

データフレームの文字の置き換え

データフレーム.replace({'置換する前の文字列':置換後の値})

# 性別の数値化(男性を0 , 女性を1)
train_df['Sex2'] = train_df['Sex'].replace({'male':0,'female':1})
train_df.head()

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked	Sex2
0	1	0	3	Braund, Mr. Owen Harris	male	22	1	A/5 21171	7.25	NaN	S	0
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38	1	PC 17599	71.2833	C85	C	1
2	3	1	3	Heikkinen, Miss. Laina	female	26	0	STON/O2. 3101282	7.925	NaN	S	1
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35	1	113803	53.1	C123	S	1
4	5	0	3	Allen, Mr. William Henry	male	35	0	373450	8.05	NaN	S	0

一番最後に性別を0,1にした列が出来上がります。

これで性別を数値にした値の列が追加できました。

色づけして散布図を書いてみます。

# 散布図の色づけ(男性を0 , 女性を1)
train_df[['Fare','Age']].plot(x='Fare', y='Age', figsize=(16, 5),kind='scatter',c=train_df['Sex2'],cmap='winter')
plt.show()

生存者と死亡者で色分けしてみましょう。

# 散布図の色づけ(0:死亡 , 1:生存)
train_df[['Fare','Age']].plot(x='Fare', y='Age', figsize=(16, 5),kind='scatter',c=train_df['Survived'],cmap='winter')
plt.show()

性別と生死で色分けした際のものがかなり似ているように感じられると思います。

seabornでの可視化

matplotlibをもう少しきれいに表示させるためのライブラリでseabornと言うものが有ります。
seabornライブラリではmatplotlibでは表現できない可視化の方法も有ります。

数値型のデータ同士の散布図をまとめて表示します。

sns.pairplot(データフレーム , hue"文字列型の種別の列")

# 欠損値があると表示できないものも有るので、一旦欠損値を平均値で埋める
for name in ['Age']:
    train_df[name] = train_df[name].fillna(train_df[name].mean())

train_df['Survived2'] = train_df['Survived'].replace({0:'death',1:'survived'})
train_df['Sex2'] = train_df['Sex'].replace({'male':0,'female':1})

# pairplot
# データ系列同士の相関性などを確認
# 同データ同士の場合は棒グラフ、異なる場合は散布図を表示
sns.pairplot(train_df[['Pclass','Age','Fare','Sex2','Survived2']], hue="Survived2")
plt.show()

factorplot

factorplotは要因別で図表を振り分けることが出来ます。

factorplot(x='横方向カラム名', y='縦方向カラム名', hue='種別用カラム名', col='カラム名', data=データフレーム)

# factorplot (種別比較図)
sns.factorplot(x='Pclass', y='Age', hue='Survived', col='Sex2', data=train_df)
plt.show()

kind='box' を付け加えると箱ひげ図に変えることが出来ます。

sns.factorplot(x='Pclass', y='Age', hue='Survived', col='Sex2',kind='box', data=train_df)
plt.show()

lmplot

2変数間の散布図と線形回帰線を可視化するグラフです。

sns.lmplot(x=横軸のカラム, y=縦軸のカラム, hue='色づけするもの', data=データフレーム, x_bins=ビン値)

# 年齢層を指定
generations = [10,20,30,40,50,60,70,80]
# 客層、年齢ごとの生存率、および回帰直線を描画
sns.lmplot('Age', 'Survived', hue='Pclass', data=train_df,hue_order=[1,2,3], x_bins=generations)
plt.show()

まとめ

データの理解では全体を集計してどんなデータがあるのかを把握し、層別で様々な可視化を試してみて
どんなデータの分布になっているのかをみていきます。

データをあらかた見終わった後は、どんなデータが予測に使えそうなのかを整理して
ここから、機械学習に使えるデータに直していきます。

まずはざっくりとした流れを覚えましょう。

君がエンジニアになるまであと22日

作者の情報

乙pyのHP：
http://www.otupy.net/

Youtube：
https://www.youtube.com/channel/UCaT7xpeq8n1G_HcJKKSOXMw

Twitter：
https://twitter.com/otupython

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up