- AIでデータ分析-データ前処理(26)-外れ値・異常値検知:時系列のスパイク・ドリフト検知
- 用いるデータの紹介
- 自分でコーディング × AI
- AIの活用:gemini
- まとめ
AIでデータ分析-データ前処理AIでデータ分析-データ前処理(26)-外れ値・異常値検知:時系列のスパイク・ドリフト検知
今回はデータの前処理でよく行われるチェックリスト(26)-外れ値・異常値検知:時系列のスパイク・ドリフト検知 をAIを用いて行ってみたいと思います。
AIを用いることでいかに効率化できるのか、体験していただければと思います。
所要時間は10分ほどとなっています。
それでは、さっそく始めていきましょう!
データの紹介
今回用いる前処理練習用のcsvデータです。
サンプルデータはこちらから、チェックリストはこちらからダウンロードできます。
1行が1訪問を表すデータになっています。
(/Users/apple_banana_ringo/.exploratory/projects/_______tft0ZyS9/markdown_output/image-1767080061958.png)
Pythonで実装:AIのサポートを借りて実装
データの前処理として購入金額列の異常値を変換するにあたり下記の段取りで実行します。
1、購入金額列の移動平均を計算
2、移動平均と実際の観測値の乖離を計算
3、乖離データに対してWinsorizationを実行して頑健な統計量(平均と標準偏差)を算出
4、乖離に対するZスコアの計算
5、Zスコアが3を超えるかどうかで元の購入金額の異常値を検知
6、検知された異常値を上下1パーセンタイルの値に変換
エラー対応も発生し所要時間420分ほどでした。
AIの活用
時間の都合で省略しますがまとめてやろうとするとうまくいきませんでした。
まとめ
今回は前処理練習用のデータに対し、前処理チェックリスト(26)-外れ値・異常値検知:時系列のスパイク・ドリフト検知 をAIを用いてできるか試しました。
結果はAIにまるまる代替することはできず、コーディングのサポートとして活用するのが良さそうです。
AIでできることとできないことを把握し、うまく活用することで、データ分析もかなり効率化できそうですね!
AIでデータ分析-データの前処理(26)-外れ値・異常値検知:時系列のスパイク・ドリフト検知 は以上となります!

