概要
機械学習の処理を色々見ているとデータ準備工程で同じような処理を見かけるので何をしているかまとめておく
処理
コード全文
import pandas as pd
import seaborn as sns
df = sns.load_dataset('titanic') # データセット読み込み
X = df.loc[:, (df.columns!='survived') & (df.columns!='alive')]
X = pd.get_dummies(X, drop_first=True) # 訓練データ
Y = df['survived'] # 教師データ
データセット読み込み
df = sns.load_dataset('titanic')
まずはデータを用意している。
以下のタイタニック以外にもいろいろある。
タイタニック号沈没事故の乗客の生存者/死亡者のデータセットです。(データのもとはイギリス商務省)
データセットの構造はKaggleのタイタニックデータに類似していますが、項目に若干の違いがあります。また、データの行はKaggleのタイタニックデータの訓練データと同じです。
訓練データ
X = df.loc[:, (df.columns!='survived') & (df.columns!='alive')]
X = pd.get_dummies(X, drop_first=True)
df.loc
で行名、列名を指定して特定の値を抽出できる。
上記コードではすべての行に対して、列が'survived'
でないかつ列が'alive'
でないものを抽出している。
pd.get_dummies
でカテゴリ変数をダミー変数に変換している。
これは以下の動作例を見た方がわかりやすい。
教師データ
Y = df['survived']
これは指定の列を取り出しているだけ。