0
0

学習日記#2:カテゴリカル変数の数値変換

Posted at

ゴール

カテゴリカル変数の数値変換を実行する

やったこと

  • 使用するデータの絞り込み
    • dropメソッドで不要なカラムの削除
  • One hot encoding
    • pandasのpd.get_dummiesメソッドを使う
    • ↑の数値変換後にpd.concatメソッドを使って元のDataFrameと結合する
    • 数値変換前のカテゴリカル変数カラムはdropメソッドで削除
  • Label encoding
    • pandasのpd.get_dummiesを使う
    • 男女といった2値のカテゴリカル変数であればdrop_first = Trueで1つのカラムに絞る

注意点

  • データを加工(結合、削除、変換など)するたびにData Frameを新しい変数に格納する(df1, df2, df3みたいな感じ

気になること

  • 3値以上をとるカテゴリカル変数のラベルエンコーディングはどうやるんだろう。ワンホットエンコーディング一択なんだろうか?
  • 加工後に新しい変数名で定義するのはわかるけど、このdfXXはどういう定義(加工)してたっけ?はコメントとかで対処するのがよいんだろうか?作成者の意図と実際のコードが間違ってるときにコメントで気づけるのがよいような印象

備忘録

全体の流れ

  • 目的・課題の特定
  • データの取得・収集
  • データ理解・データの可視化
  • データの加工・前処理 (←今回はココの最後)
  • 機械学習モデルの作成
  • 評価・テスト
  • レポーティング or アプリケーション化

次回は加工したデータを実際に機械学習にかけて「生存するか否か」の予測を行う予定
*機械学習が中でどんなことやってるかの理屈は微積分やら線形代数ほか数学的あれこれはよくわからんのでいろいろアウトプットしてみて後で学ぶスタンス

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0