- AIでデータ分析-データ前処理(29)-外れ値・異常値処理: 外れ値の別カテゴリ化・フラグ化
- 用いるデータの紹介
- AIの活用
- まとめ
AIでデータ分析-データ前処理(29)-外れ値・異常値処理: 外れ値の別カテゴリ化・フラグ化
このノートは、データ分析においてAIを使って何ができて何ができないかを検証するために、実際に試した結果をまとめたノートです。
今回はデータの前処理でよく行われるチェックリスト(29)-外れ値・異常値処理: 外れ値の別カテゴリ化・フラグ化 をAIを用いて行ってみたいと思います。
AIを用いることでいかに効率化できるのか、体験していただければと思います。
所要時間は10分ほどとなっています。
それでは、さっそく始めていきましょう!
データの紹介
今回用いる前処理練習用のcsvデータです。
サンプルデータはこちらから、チェックリストはこちらからダウンロードできます。
1行が1訪問を表すデータになっています。
AIの活用:geminiを活用
(29)-外れ値・異常値処理: 外れ値の別カテゴリ化・フラグ化
ID系以外の数値型の列に対して1.5IQRで異常値検知し、異常値の見られた行に対してフラグを立てるため
「'訪問ID', '顧客ID', '店舗ID'列以外の数値型の列に対して1.5*iqrで外れ値を検知し新しい列に外れ値であることを示すフラグを付与して。その際値自体は保持するようにして」とgeminiに依頼します。
※時間の都合上欠損処理をしないまま行うため、欠損値にも異常値フラグが立てられています。
期待通りに外れ値が処理されたことが確認できました。
今度は統計学の知識がほとんどないという前提で、同じことができるのか試してみます。
前提知識
・データ型の理解
・異常値にフラグを立てるデータの前処理工程の理解
geminiに画像のように依頼します。
結果を確認します。
コードはエラーが出ず実行完了していますが、異常値の検知もフラグ立てもできていないことが確認できます。
プロンプト入力の結果部分を確認すると
となっておりタスクが途中でエラーが出ていることが確認されます。
エラー内容を確認してみます。
コードの実行は完了できていたため、生成AIは目的のタスクに対してエラーを出していると認識していないことが分かります。
コードのエラーであれば「エラーの説明」を繰り返すことで完了まで辿り着ける可能性もありますが、生成AIとしてはエラーと認識しておらず、従ってエラーの原因も原因もわからない状態のため、統計的な前提知識が限られた状態では、まだ外れ値のフラグを立てる前処理はAIで代替するのは難しいと言えそうです。
まとめ
今回は前処理練習用のデータに対し、前処理チェックリスト(29)-外れ値・異常値処理: 外れ値の別カテゴリ化・フラグ化 をAIを用いてできるか試しました。
結果は統計学の前提知識があれば、AIで代替できることを確認することができました。
AIでできることとできないことを把握し、うまく活用することで、データ分析もかなり効率化できそうですね!
AIでデータ分析-データの前処理29)-外れ値・異常値処理: 外れ値の別カテゴリ化・フラグ化 は以上となります!









