AIでデータ分析-ハイパーパラメータのチューニング：XGBClassifierで従業員の離職を予測する

Posted at 2025-10-21

AIでデータ分析-ハイパーパラメータのチューニング：XGBClassifierで従業員の離職を予測する
用いるデータの紹介
まずはPythonで実装する
AIの活用：ChatGPTで実行する
まとめ

AIでデータ分析-ハイパーパラメータチューニング：従業員の離職を予測するモデルを作成する

このノートは、分析においてAIを使って何ができて何ができないかを検証するために、実際に試した結果をまとめたノートです。

今回はXGBClassifierで従業員の離職を予測することに加えて、ハイパーパラメータをチューニングしていきたいと思います。

その際、AIとどっちが高い精度を得られるのか、試してみたいと思います。AIを用いることでいかに効率化できるのか、体験していただければと思います。

所要時間は30分ほどとなっています。

それでは、さっそく始めていきましょう！

データの紹介

今回検証に用いるデータのサンプルデータは従業員データです。サンプルデータはこちらからダウンロードできます。

1行が従業員１人のデータになっています。列情報としては年齢、性別、婚姻ステータス、部署、職種、給料などがあります。

まずはPythonで実装する

アルゴリズムにXGBClassifierを用いてPipelineを構築→グリッドサーチCVを実行し、最適パラメータとスコアを確認→テストデータでaccuracyを計算→混同行列の作成をPythonで実装します。

結果を確認します。

最適パラメータはlearning rate:0.05, max_depth:4, n_estimators:100

テストデータでのaccuracy(正解率)が約0.968、混同行列は図の通りになりました。

分析の所要時間は20分でした。

AIの活用：ChatGPTで実行する

次にAIを使って同じことをするため、chatGPTに従業員データをアップロードし、

「添付のデータを使って下記を実行して。１、離職の列を目的変数、他の列を説明変数としてデータフレームを切り分ける２、訓練データ7割、テストデータ3割に分割する３、データの前処理としてデータタイプが数値型の列はそのままで、object型の列にはOneHotEncodingする４、モデルはXGBClassifierを使い、GridsearchCVでハイパーパラメータチューニングを実行する５、最適なパラメータとスコアを表示する６、テストデータでaccuracyを計算し表示する７、混同行列を作成し表示する（目的変数である離職列のYesが0、Noが1に対応するように混同行列のラベルを調整する）」と入力し、実行します。