▽目的
データフレーム内のカラム(列)のデータを元に新たなカラム(列)を追加する方法の紹介
▽説明
イテレータを用いて1行ずつデータを読み込んで処理する方法もありますが、処理に時間を要しました。
その為、極力pythonのイテレータは使用せず、numpyの行列演算を用いて、処理を行なっています。
今回読み込むcsvデータは、kaggleのタイタニックのデータを用いました。
事前準備として、以下のURLのtrain.csvをダウンロードし、ローカル環境の所定のパスに配置しています。
https://www.kaggle.com/c/titanic/data
処理の概要としては、SibSp列とParch列の数値に+1し、新たに追加したFamilySizeという列に
代入する流れとなっています。
import pandas as pd
df = pd.read_csv("train.csv")
print(df.head())
df['FamilySize'] = df['SibSp'] + df['Parch'] + 1
df['IsAlone'] = 0
df.loc[df['FamilySize'] == 1, 'IsAlone'] = 1
print(df.head())