- AIでデータ分析-ハイパーパラメータチューニング:K-nnRegresserで従業員の給料を予測する
- 用いるデータの紹介
- まずはPythonで実装する
- AIの活用:ChatGPTで実行する
- まとめ
AIでデータ分析-ハイパーパラメータチューニング:K-nn Regresserで従業員の給料を予測する
このノートは、分析においてAIを使って何ができて何ができないかを検証するために、実際に試した結果をまとめたノートです。
今回はK-nnRegresserで従業員の給料を予測し、最適なハイパーパラメータや精度を確認していきたいと思います。
その際、AIとどちらがよりよい結果が得られるか、試してみたいと思います。AIを用いることでいかに効率化できるのか、体験していただければと思います。
所要時間は20分ほどとなっています。
それでは、さっそく始めていきましょう!
データの紹介
今回検証に用いるデータのサンプルデータは従業員データです。サンプルデータはこちらからダウンロードできます。
1行が従業員1人のデータになっています。列情報としては年齢、性別、婚姻ステータス、部署、職種、給料などがあります。
まずはPythonで実装する
使用するアルゴリズムにK-nnRegresserを用い予測モデルを作成→各評価指標でモデルの評価をPythonで実装します。
結果を確認します。
最適なハイパーパラメータは
metric : manhattan
n_neighbors : 7
weights : distance
テストデータでの評価は
MSE=約3756153
MAE=約1386
R2=約0.814
MAPE : 0.238
でした。分析の所要時間は20分でした。
AIの活用:ChatGPTで実行する
次にAIを使って同じことをするため、chatGPTに従業員データをアップロードし、
「添付のデータを使って下記を実行して。 1、給料の列を目的変数、他の列を説明変数(離職の列は削除する)としてデータフレームを切り分ける 2、訓練データ7割、テストデータ3割に分割する 3、データの前処理としてデータタイプが数値型の列は標準化し、object型の列にはダミー変数化する 4、アルゴリズムはK-nnRegresserを使いハイパーパラメータチューニングで最適なモデルを作る 5、モデルの評価指標として、MSE,MAE,,MAPE,決定係数を求めて表示する」と入力し、実行します。
結果を確認します。
最適なハイパーパラメータは
metric : manhattan (※p=1の解釈として距離の測り方としてマンハッタン距離が使用した場合を意味します)
n_neighbors : 3
weights : distance
テストデータでの評価は
MSE=約4509684
MAE=約1517
R2=約0.777
MAPE : 0.262
でした。分析の所要時間は3分でした。
まとめ
今回はK-nnRegresserで従業員の給料を予測するにあたり、2つの方法を試しました。
1つ目の方法はPythonを用いた方法と、もう1つはchatGPTを用いた方法です。
結果はK-nnRegresserで実行は可能なこと、精度は人間がやるより必ず高い精度が出るわけではないことを確認することができました。
AIでできることとできないことを把握し、うまく活用することで、データ分析もかなり効率化できそうですね!
AIでデータ分析-ハイパーパラメータチューニング:K-nnRegresserで従業員の給料を予測する は以上となります!






