【第12回_Beginner限定コンペ】従業員の離職予測
はじめに
・本記事では2021年7月に開催されたSIGNATE Beginnerコンペに関して、どのようなタスク処理をしたかをまとめた記事となっている。
・まとめの意義としては、自分自身の学習の為である。後学の為に、自分が行った処理やモデルの実装を残しておくこととする。
1.タスクと評価指標の分析
タスク:二値分類→従業員が離職するか否か
テーブルデータ:1200/36カラム
評価指数:Accuracy(正答率)とerror rate
評価指数の話をする前に混合行列(confusion matrix)
に触れる。
混合行列は評価指数ではないが、正例であるかを予測値とする評価指標でよく利用される。
予測が、正しいか誤りかによって以下の4つに分類される。
1.TP(True Positve、真陽性):予測値を正例として、その予測が正しい場合
2.TB(True Negative、真陰性):予測値を負例として、その予測が正しい場合
3.FP(False Positve、偽陽性):予測値を正例として、その予測が誤りの場合
4.FN(False Negatibe、偽陰性):予測値を負例として、その予測が誤りの場合
Accuracyは予測が正しい割合、error rateは誤っている割合を表す指標。
正解のレコード数を全てのレコード数で割ることで求められる。
$$Accuracy=\frac{TP+TN}{TP+FP+FN+TN}$$
$$erro rate = 1 - accuracy$$
2.データの前処理と特徴量の作成
今回扱ったデータの中には欠損値が含まれていなかった為、