8
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

DataRobotでIBMの離職者予測

Posted at

学習データ

データはkaggleのこちらのもの👇
https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset

特徴は全部で35列

年齢、性別などの基本情報から、残業してたか、給料、勤めてからどのくらいたつかなどもあります。
ターゲットは「Attrition」離職したかどうかです。
スクリーンショット 2020-04-17 20.17.05.png

見るからに不均衡なデータです。
スクリーンショット 2020-04-17 20.17.37.png

学習

スクリーンショット 2020-04-17 20.15.19.png

続々とモデルが作成されていきます。
スクリーンショット 2020-04-17 20.25.08.png

結果

合計41個のモデルが生成されました。
いちばん精度が高かったのはElastic-Net Classifierでした。
ここまでわずか数分
スクリーンショット 2020-04-17 20.30.39.png

ブループリント

2番目に精度の高かった、おなじみのLightGBMモデルをみてみましょう。
スクリーンショット 2020-04-17 20.32.08.png
ブループリントから各特徴に施された処理が確認できます。
この自動特徴量エンジニアリングがAutoMLツールの強みですね。

精度

スクリーンショット 2020-04-17 21.16.09.png 混同行列やROCカーブが自動生成されるのはいいですねー ただ、190件の離職者のうちちゃんと的中できてるのは106件なので、もう少し精度が欲しいところ このあとさらに精度をあげたいってなった場合は「Advancet Tuning」のところからハイパーパラメータなどの調整ができるっぽいですね

インサイト

Feature Importance

スクリーンショット 2020-04-17 21.24.52.png 予測結果に与える影響度を可視化してくれてる機能 「OverTime」残業してるかどうかがいちばん影響してるとはなんともリアルですね。 こういうデータがあるとモデルの出力する予測結果に説得力がでてきます。

Prediction Explanations

スクリーンショット 2020-04-17 21.29.45.png 予測結果を何件かとってきて、なんで予測結果がそのような値になったのかを説明してくれてます。 いちばん上のID457の予測結果では「残業あり」、「出張が頻繁」、「勤めてまだ1年目」ということで離職する確率が**95.5%**であると予測しています。

推論

スクリーンショット 2020-04-17 21.33.28.png 今回はこのデータセットが学習データのみだったため推論は省きますが、 学習したモデルを選択して「Prediction」の項目から推論が簡単に実行することができます。

おわり

たった数分で学習から分析まで自動でやってくれるDataRobotさすがです。
他にもいろいろとデータの可視化やモデル比較など使える機能があるのでそれはまた別の記事で書こうかと思います。

8
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
8
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?