1
0

More than 1 year has passed since last update.

【Python】Pandas DataFrameを使った訓練データ、教師データの生成例

Posted at

概要

機械学習の処理を色々見ているとデータ準備工程で同じような処理を見かけるので何をしているかまとめておく

処理

コード全文

import pandas as pd
import seaborn as sns

df = sns.load_dataset('titanic') # データセット読み込み
X = df.loc[:, (df.columns!='survived') & (df.columns!='alive')]
X = pd.get_dummies(X, drop_first=True) # 訓練データ
Y = df['survived'] # 教師データ

データセット読み込み

df = sns.load_dataset('titanic')

まずはデータを用意している。
以下のタイタニック以外にもいろいろある。

タイタニック号沈没事故の乗客の生存者/死亡者のデータセットです。(データのもとはイギリス商務省)
データセットの構造はKaggleのタイタニックデータに類似していますが、項目に若干の違いがあります。また、データの行はKaggleのタイタニックデータの訓練データと同じです。

訓練データ

X = df.loc[:, (df.columns!='survived') & (df.columns!='alive')]
X = pd.get_dummies(X, drop_first=True) 

df.locで行名、列名を指定して特定の値を抽出できる。
上記コードではすべての行に対して、列が'survived'でないかつ列が'alive'でないものを抽出している。

pd.get_dummiesでカテゴリ変数をダミー変数に変換している。
これは以下の動作例を見た方がわかりやすい。

教師データ

Y = df['survived'] 

これは指定の列を取り出しているだけ。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0