- AIでデータ分析-データの前処理(18)-欠損処理:欠損率の高い列をまとめて削除する
- 用いるデータの紹介
- AIの活用
- まとめ
AIでデータ分析-データの前処理(18):欠損率の高い列をまとめて削除する
このノートは、データ分析においてAIを使って何ができて何ができないかを検証するために、実際に試した結果をまとめたノートです。
今回はデータの前処理でよく行われるチェックリスト18:欠損率の高い列をまとめて削除する をAIを用いて行ってみたいと思います。
AIを用いることでいかに効率化できるのか、体験していただければと思います。
所要時間は10分ほどとなっています。
それでは、さっそく始めていきましょう!
データの紹介
今回用いる前処理練習用のcsvデータです。
サンプルデータはこちらから、チェックリストはこちらからダウンロードできます。
1行が1訪問を表すデータになっています。
AIの活用:geminiを活用
18-欠損値処理:欠損率の高い列をまとめて削除する
まずは欠損の状況をヒーマップと棒グラフを確認しておきます。
欠損値は特定の列でのみ発生していることが確認できます。
欠損値の発生している列はどの列か、それぞれ約250行ずつ欠損値が発生していることが確認できます。
それではこれに対しタスクの通りgeminiに依頼してみます。
結果を確認します。
全体の行数と各列で欠損値の発生している列の割合から考えても今回は明らかに欠損率70%を超える列はないため、タスクに対し正しく処理できていることが確認できます。
まとめ
今回は前処理練習用のデータに対し、前処理チェックリスト(18):欠損率の高い列をまとめて削除する をAIを用いてできるか試しました。
結果はAIで代替できることを確認することができました。
AIでできることとできないことを把握し、うまく活用することで、データ分析もかなり効率化できそうですね!
AIでデータ分析-データの前処理(18):欠損率の高い列をまとめて削除する は以上となります!







