- AIでデータ分析-データ前処理(33)-カテゴリ変数の整理・エンコーディング:順序尺度カテゴリの順序定義
- 用いるデータの紹介
- Pythonで実装
- AIの活用:gemini
- BIの活用:Exploratory
- まとめ
AIでデータ分析-データ前処理(33)-カテゴリ変数の整理・エンコーディング:順序尺度カテゴリの順序定義
このノートは、データ分析においてAIを使って何ができて何ができないかを検証するために、実際に試した結果をまとめたノートです。
今回はデータの前処理でよく行われるチェックリスト(33)-カテゴリ変数の整理・エンコーディング:順序尺度カテゴリの順序定義 をAIを用いて行ってみたいと思います。
AIを用いることでいかに効率化できるのか、体験していただければと思います。
所要時間は10分ほどとなっています。
それでは、さっそく始めていきましょう!
データの紹介
今回用いる前処理練習用のcsvデータです。
サンプルデータはこちらから、チェックリストはこちらからダウンロードできます。
1行が1訪問を表すデータになっています。
Pythonで実装
今回はこちらの購入点数列を順序尺度カテゴリとして、小さい値から最後はOther(8回以上)となるように順序を定義します。
まずはPythonで順序定義します。
意図した通りに順序が定義されたことが確認できます。所要時間3分でした。
AIの活用:geminiを活用
今度は同じことがAIでもできるか下記のようにgeminiに依頼します。
結果を確認します。
数値の小さい値から最後はOther(8回以上)となるようにうまく順序定義できないだけでなく、値が消えてしまっています。
原因として購入点数列は元々数値型とカテゴリ型の混在するobject型の列ですが、1~7の数値型をダブルクオーテーションで挟み、カテゴリ型として扱っていることが考えられます。
何度からエラーの修正を行いましたがうまくいかず、所要時間10分でした。
BIの活用:Exploratoryを活用
Exploratoryを開きます。購入点数の列ヘッダーメニューをクリック→値の順序をセット→手動で値を選択をクリックします。
下記画像のように順序を指定して入力し、実行します。
結果を確認するため棒グラフを作ってみます。
チャートビューに移動し、下記画像のように選択し、実行します。
値の小さいものから最後はOther(8回以上を統合した値)の順に順序が定義されていることが確認できます。所要時間は1分でした。
まとめ
今回は前処理練習用のデータに対し、前処理チェックリスト(33)-カテゴリ変数の整理・エンコーディング:順序尺度カテゴリの順序定義 をAIを用いてできるか試しました。
結果はデータタイプが混在する順序尺度カテゴリ列では、データタイプごとに正しく読み取ることができず、まだAIで代替できないことを確認することができました。
AIでできることとできないことを把握し、うまく活用することで、データ分析もかなり効率化できそうですね!
AIでデータ分析-データの前処理((33)-カテゴリ変数の整理・エンコーディング:順序尺度カテゴリの順序定義 は以上となります!

