以下のようなデータの前処理は、ChatGPT(Code interpreter)にお願いすると楽ですよぉ。
実施したデータの前処理
数値(int, float)、16進数、カテゴリーが混在しています。欠損値(NaN)もありますね。
このデータで、以下の前処理を行いました。口頭(テキスト)指示だけ。。。これだけで?と拍子抜けしました。「〇〇して」と伝えているだけですが、詳しくは実行例をみてください。
- 16進数のデータ列を10進数に変換
- データの70%以上がNaNの列は削除
- カテゴリーデータの列をラベルエンコーディング(0,1,2…)
実行例
最後に
例えば、以下のように一度にあれもこれも指示をすると、Chatくんは一部の処理し忘れちゃうことがありますので、ひとつづつ前処理して ➡︎ データ確認… したほうがよさそうです。
データの70%以上がNaNの列は削除し、データが16進数の列があればすべての列を10進数に、NaNデータがあるデータ行は削除して、データフレームを書き出して下さい。
それにしても、これは楽やぁ😂。全然 手間かかりません。
※ 欠損値の削除は、慎重にならないといけない時もありますね。「欠損値の補完」は以下の記事の最後の方で触れてます。