- AIでデータ分析-One-Hot Encoding:機械学習を用いるための前処理として、列のデータタイプが数値型ならそのまま、カテゴリ型ならOneHot Encodingする
- 用いるデータの紹介
- まずはPythonで実行する
- AIの活用:ChatGPTで実行する
- まとめ
AIでデータ分析-One Hot Encoding:機械学習を用いるための前処理として、列のデータタイプが数値型ならそのまま、オブジェクト型ならOneHotEncodingする
このノートは、分析においてAIを使って何ができて何ができないかを検証するために、実際に試した結果をまとめたノートです。
今回は機械学習を用いるためのデータの前処理として、データタイプが数値型ならそのまま、オブジェクト型ならOne Hot Encodingしていきたいと思います。
その際、AIで正しく求めた前処理を実行できるのか試してみたいと思います。AIを用いることでいかに効率化できるのか、体験していただければと思います。
所要時間は10分ほどとなっています。
それでは、さっそく始めていきましょう!
データの紹介
今回検証に用いるデータのサンプルデータは従業員データです。サンプルデータはこちらからダウンロードできます。
1行が従業員1人のデータになっています。列情報としては年齢、性別、婚姻ステータス、部署、職種、給料などがあります。
Pythonで実行する
まず処理前のデータを確認します。
各列のデータタイプを確認すると数値型(numeric)とオブジェクト型(object)が混合しているのが確認できます。
次にPythonでデータタイプが数値型ならそのまま、オブジェクト型ならOne Hot Encodingします。
結果を確認します。
数値型はそのまま、オブジェクト型にはOne Hot Encodingが完了しました。
所要時間は30分でした。
AIの活用:ChatGPTで実行する
次にAIを使って同じことをするため、chatGPTに従業員データをアップロードし、「添付のデータを離職の列を目的変数として、訓練データ7割、テストデータ3割に分割した後、前処理としてデータタイプが数値型の列はそのままで、object型の列にはOneHotEncodingし、csvデータとしてはき出して」と入力し、実行します。
csvデータが出力されました。
出力されたcsvデータをPythonで読み込んで確認します。
列数はPythonで処理した場合と同じ45列、行数は1029行で指定した割合で正しく分割できていることが確認できます。
今回のプロンプトでは目的変数と説明変数の切り分けはできませんでしたが、データタイプを確認すると説明変数において全てobject型から数値型(float型)に変換できていることが確認できます。
所要時間は10分でした。
まとめ
今回は列のデータタイプが数値型ならそのまま、カテゴリ型ならOneHot Encodingする処理を2つの方法で調べました。
1つはPythonで実行する方法と、もう1つはchatGPTを用いる方法です。
結果は今回のプロンプトでは目的変数と説明変数の切り分けはできていませんでしたが、AIでもデータタイプに合わせて正しく指定した前処理を行えること、OneHotEncodingが行えることを
確認することができました。
AIでできることとできないことを把握し、うまく活用することで、データ分析もかなり効率化できそうですね!
AIでデータ分析-ダミー変数化:One-Hot Encoding:列のデータタイプが数値型ならそのまま、カテゴリ型ならOneHot Encodingする は以上となります!