- AIでデータ分析-データ前処理(30)-クレンジング:表記揺れの統一
- 用いるデータの紹介
- AIの活用
- まとめ
AIでデータ分析-データ前処理(30)-クレンジング: 表記揺れの統一
このノートは、データ分析においてAIを使って何ができて何ができないかを検証するために、実際に試した結果をまとめたノートです。
今回はデータの前処理でよく行われるチェックリスト(30)-クレンジング: 表記揺れの統一 をAIを用いて行ってみたいと思います。
AIを用いることでいかに効率化できるのか、体験していただければと思います。
所要時間は10分ほどとなっています。
それでは、さっそく始めていきましょう!
データの紹介
今回用いる前処理練習用のcsvデータです。
サンプルデータはこちらから、チェックリストはこちらからダウンロードできます。
1行が1訪問を表すデータになっています。
AIの活用:geminiを活用
(30)-クレンジング: 表記揺れの統一
"チェーン名(生)"列の表記揺れを統一するため、
データサイエンスの前提知識ある場合
使用している知識
・表記揺れの意味
・表記揺れは値ごとに表記を統一する必要があること
下記画像のようにgeminiに依頼します。
結果を確認します。
表記揺れが統一されており、適切に処理されたことが確認できました。
次にデータサイエンスの経験や前提知識がない場合を想定してみます
同じことを意味している単語が複数種類あることはおかしいと考え、表記を揃えるようgeminiに依頼したとします。
結果を確認します。
コードは追加されず右側のGeminiサイドパネルに下記が返ってきました。
実行するように依頼してみます。
結果を確認します。
無事コード生成・実行され、同じように表記揺れが統一されたことが確認できました。
まとめ
今回は前処理練習用のデータに対し、前処理チェックリスト(30)-クレンジング: 表記揺れの統一 をAIを用いてできるか試しました。
結果はデータサイエンスの前提知識がなくても表記揺れの前処理はAIで代替できることを確認することができました。
AIでできることとできないことを把握し、うまく活用することで、データ分析もかなり効率化できそうですね!
AIでデータ分析-データの前処理(30)-クレンジング: 表記揺れの統一 は以上となります!







