- AIでデータ分析-データ前処理(37)-エンコーディング:Count / Frequency Encoding
- 用いるデータの紹介
- Pythonで実装
- AIの活用:geminiを活用
- まとめ
AIでデータ分析-データ前処理AIでデータ分析-データ前処理(37)-エンコーディング:Count / Frequency Encoding
今回はデータの前処理でよく行われるチェックリスト(37)-エンコーディング:Count / Frequency Encoding をAIを用いて行ってみたいと思います。
AIを用いることでいかに効率化できるのか、体験していただければと思います。
所要時間は10分ほどとなっています。
それでは、さっそく始めていきましょう!
データの紹介
今回用いる前処理練習用のcsvデータです。
サンプルデータはこちらから、チェックリストはこちらからダウンロードできます。
1行が1訪問を表すデータになっています。
Pythonで実装
まずはPythonで実行します。
結果を確認します。
所要時間30分でした。
AIの活用:geminiを活用
今度は同じことがAIでもできるか下記のようにgeminiに依頼します。
結果を確認します。
AIはFrequency Encodingにおける欠損値発生に対して全体の頻度の平均値で補完までしてくれてることが確認できました。
Frequency Encodingは高基数カテゴリに対する前処理として有効とのことですが、個人的には、高基数であるが故に検証データにしか存在しないカテゴリが出現しやすく、結果として欠損値が発生する可能性があり、情報損失に繋がりそうなため
Frequency Encoding高基数カテゴリに対する前処理として不適切なのではと違和感がありました。
今回は時間の都合上省略しますが、上記を踏まえても高基数カテゴリに対する前処理として依然としてFrequency Encodingが有効とされておりましたので
同じように違和感を感じた方はぜひ調べてみていただけると良いかと思います。
所要時間1分でした。
まとめ
今回は前処理練習用のデータに対し、前処理チェックリスト(37)-エンコーディング:Count / Frequency Encoding をAIを用いてできるか試しました。
結果はAIで代替できることを確認することができました。
AIでできることとできないことを把握し、うまく活用することで、データ分析もかなり効率化できそうですね!
AIでデータ分析-データの前処理(37)-エンコーディング:Count / Frequency Encoding は以上となります!
