More than 5 years have passed since last update.

Pandasのデータフレームのカラム追加

Last updated at 2017-10-14Posted at 2017-10-14

▽目的
データフレーム内のカラム(列)のデータを元に新たなカラム(列)を追加する方法の紹介

▽説明
イテレータを用いて1行ずつデータを読み込んで処理する方法もありますが、処理に時間を要しました。
その為、極力pythonのイテレータは使用せず、numpyの行列演算を用いて、処理を行なっています。

今回読み込むcsvデータは、kaggleのタイタニックのデータを用いました。
事前準備として、以下のURLのtrain.csvをダウンロードし、ローカル環境の所定のパスに配置しています。
https://www.kaggle.com/c/titanic/data

処理の概要としては、SibSp列とParch列の数値に+1し、新たに追加したFamilySizeという列に
代入する流れとなっています。

import pandas as pd
df = pd.read_csv("train.csv")

print(df.head())

df['FamilySize'] = df['SibSp'] + df['Parch'] + 1
df['IsAlone'] = 0
df.loc[df['FamilySize'] == 1, 'IsAlone'] = 1

print(df.head())

▽FamilySize列追加前

▽FamilySize列追加後

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up