ゴール
カテゴリカル変数の数値変換を実行する
やったこと
- 使用するデータの絞り込み
-
drop
メソッドで不要なカラムの削除
-
- One hot encoding
- pandasの
pd.get_dummies
メソッドを使う - ↑の数値変換後に
pd.concat
メソッドを使って元のDataFrameと結合する - 数値変換前のカテゴリカル変数カラムは
drop
メソッドで削除
- pandasの
- Label encoding
- pandasの
pd.get_dummies
を使う - 男女といった2値のカテゴリカル変数であれば
drop_first = True
で1つのカラムに絞る
- pandasの
注意点
- データを加工(結合、削除、変換など)するたびにData Frameを新しい変数に格納する(df1, df2, df3みたいな感じ
気になること
- 3値以上をとるカテゴリカル変数のラベルエンコーディングはどうやるんだろう。ワンホットエンコーディング一択なんだろうか?
- 加工後に新しい変数名で定義するのはわかるけど、このdfXXはどういう定義(加工)してたっけ?はコメントとかで対処するのがよいんだろうか?作成者の意図と実際のコードが間違ってるときにコメントで気づけるのがよいような印象
備忘録
全体の流れ
- 目的・課題の特定
- データの取得・収集
- データ理解・データの可視化
- データの加工・前処理 (←今回はココの最後)
- 機械学習モデルの作成
- 評価・テスト
- レポーティング or アプリケーション化
次回は加工したデータを実際に機械学習にかけて「生存するか否か」の予測を行う予定
*機械学習が中でどんなことやってるかの理屈は微積分やら線形代数ほか数学的あれこれはよくわからんのでいろいろアウトプットしてみて後で学ぶスタンス