LoginSignup
0
1

More than 1 year has passed since last update.

SIGNATEBEGGINERコンペまとめ

Posted at

【第12回_Beginner限定コンペ】従業員の離職予測

はじめに

・本記事では2021年7月に開催されたSIGNATE Beginnerコンペに関して、どのようなタスク処理をしたかをまとめた記事となっている。
・まとめの意義としては、自分自身の学習の為である。後学の為に、自分が行った処理やモデルの実装を残しておくこととする。

1.タスクと評価指標の分析

タスク:二値分類→従業員が離職するか否か
テーブルデータ:1200/36カラム
評価指数:Accuracy(正答率)とerror rate

評価指数の話をする前に混合行列(confusion matrix)に触れる。
混合行列は評価指数ではないが、正例であるかを予測値とする評価指標でよく利用される。
予測が、正しいか誤りかによって以下の4つに分類される。
1.TP(True Positve、真陽性):予測値を正例として、その予測が正しい場合
2.TB(True Negative、真陰性):予測値を負例として、その予測が正しい場合
3.FP(False Positve、偽陽性):予測値を正例として、その予測が誤りの場合
4.FN(False Negatibe、偽陰性):予測値を負例として、その予測が誤りの場合

Accuracyは予測が正しい割合、error rateは誤っている割合を表す指標。
正解のレコード数を全てのレコード数で割ることで求められる。

$$Accuracy=\frac{TP+TN}{TP+FP+FN+TN}$$
$$erro rate = 1 - accuracy$$

2.データの前処理と特徴量の作成

今回扱ったデータの中には欠損値が含まれていなかった為、

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1