Pythonでのダミー変数化
ダミー変数化とは・・・
日付や時刻などの文字列(カテゴリ変数)を数値データに変換すること。
Pythonでは一般的にPandasの関数get_dummies()を用いてダミー変数化される。また、one-hot encodingとして出力される。
one-hot encoding
文字列のカテゴリの変数に応じてカラムを用意し、0,1に置き換える。
ただし、欠点としてカテゴリの変数が多い場合はデータが膨大になってしまう。
label encoding
カテゴリの変数の種類に応じず、1つの列で収まるデータを作成する。
使用するには、sklearnのLabelEncoder()を利用する。その後fitでデータを読み込み、transformで変換を実施する。