- AIでデータ分析-データ前処理(41)-Box-Cox/Yeo-Johnson変換
- 用いるデータの紹介
- Pythonで実装
- AIの活用:geminiを活用
- まとめ
AIでデータ分析-データ前処理AIでデータ分析-データ前処理(41)-Box-Cox/Yeo-Johnson変換
今回はデータの前処理でよく行われるチェックリスト(41)-Box-Cox/Yeo-Johnson変換 をAIを用いて行ってみたいと思います。
AIを用いることでいかに効率化できるのか、体験していただければと思います。
所要時間は10分ほどとなっています。
それでは、さっそく始めていきましょう!
データの紹介
今回用いる前処理練習用のcsvデータです。
サンプルデータはこちらから、チェックリストはこちらからダウンロードできます。
1行が1訪問を表すデータになっています。
Pythonで実装
まずはBox-Cox変換をPythonで実行します。
Box-Cox変換は変換前のデータとして0以上を値を前提としているため、データが0以上という条件を満たす購入金額列に対して変換を行います。
変換前の購入金額列の分布を確認します。
Box-Cox変換を行います。
分布の形状と歪度の値(-0.06で絶対値が1未満)を見ても正規分布に近づいたことが確認できました。
所要時間5分でした。
次にデータがマイナスや0を含んでいる際に分布を正規分布に近づけるYeo-Johnson変換を-の値はありませんが、0を含む"滞在時間_秒"列に適応します。
まずは"滞在時間_秒"列の変換前の分布を確認します。
Yeo-Johnson変換を行います。
AIの活用:geminiを活用
今度は同じことがAIでもできるか下記のようにgeminiに依頼します。
結果を確認します。
図で分布が可視化されていませんが、歪度が-0.06で同じのため、同じ結果を得られていそうです。
次に"滞在時間_秒"列にYeo-Johnson変換も確認します。

歪度が0.11で同じ結果を得られることが確認できました。
所要時間1分でした。
まとめ
今回は前処理練習用のデータに対し、前処理チェックリスト(41)-Box-Cox/Yeo-Johnson変換 をAIを用いてできるか試しました。
結果はAIで代替できないことを確認することができました。
AIでできることとできないことを把握し、うまく活用することで、データ分析もかなり効率化できそうですね!
AIでデータ分析-データの前処理(41)-Box-Cox/Yeo-Johnson変換 は以上となります!











