8
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

DataRobotでIBMの離職者予測

Posted at

学習データ

データはkaggleのこちらのもの👇
https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset

特徴は全部で35列

年齢、性別などの基本情報から、残業してたか、給料、勤めてからどのくらいたつかなどもあります。
ターゲットは「Attrition」離職したかどうかです。
スクリーンショット 2020-04-17 20.17.05.png

見るからに不均衡なデータです。
スクリーンショット 2020-04-17 20.17.37.png

#学習
スクリーンショット 2020-04-17 20.15.19.png

続々とモデルが作成されていきます。
スクリーンショット 2020-04-17 20.25.08.png

#結果
合計41個のモデルが生成されました。
いちばん精度が高かったのはElastic-Net Classifierでした。
ここまでわずか数分
スクリーンショット 2020-04-17 20.30.39.png

###ブループリント
2番目に精度の高かった、おなじみのLightGBMモデルをみてみましょう。
スクリーンショット 2020-04-17 20.32.08.png
ブループリントから各特徴に施された処理が確認できます。
この自動特徴量エンジニアリングがAutoMLツールの強みですね。

###精度
スクリーンショット 2020-04-17 21.16.09.png
混同行列やROCカーブが自動生成されるのはいいですねー
ただ、190件の離職者のうちちゃんと的中できてるのは106件なので、もう少し精度が欲しいところ
このあとさらに精度をあげたいってなった場合は「Advancet Tuning」のところからハイパーパラメータなどの調整ができるっぽいですね

###インサイト
####Feature Importance
スクリーンショット 2020-04-17 21.24.52.png
予測結果に与える影響度を可視化してくれてる機能
「OverTime」残業してるかどうかがいちばん影響してるとはなんともリアルですね。
こういうデータがあるとモデルの出力する予測結果に説得力がでてきます。

####Prediction Explanations
スクリーンショット 2020-04-17 21.29.45.png
予測結果を何件かとってきて、なんで予測結果がそのような値になったのかを説明してくれてます。
いちばん上のID457の予測結果では「残業あり」、「出張が頻繁」、「勤めてまだ1年目」ということで離職する確率が**95.5%**であると予測しています。

#推論
スクリーンショット 2020-04-17 21.33.28.png
今回はこのデータセットが学習データのみだったため推論は省きますが、
学習したモデルを選択して「Prediction」の項目から推論が簡単に実行することができます。

#おわり
たった数分で学習から分析まで自動でやってくれるDataRobotさすがです。
他にもいろいろとデータの可視化やモデル比較など使える機能があるのでそれはまた別の記事で書こうかと思います。

8
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
8
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?