はじめに
Pandasによるデータ整理の基本に関しての備忘録です。
コードを書き始めて1年以内の若輩者です😅
もし間違いがあれば、ご指摘いただけると助かります🙇
🦁結論🦁
データ操作の基本のきの字になるもの。
整理することで正しく行う事で分析につながる。
押さえておくべき点
- 列や行の操作時のinplaceパラメータの意識的な使用が必要。
注意点
- データを変更する操作を行う前には必ずバックアップを取る必要がある。
基本のデータ整理コード一覧
.rename()
列名を変更することができる。
辞書型で古い名前をキー、新しい名前を値として指定できる。
inplace=True を指定すると、元のDataFrameが直接変更される。
列だけでなく、インデックス名の変更にも使用できる。
df.rename(columns={'old_name': 'new_name'})
.astype()
列のデータ型を変更できる
文字列型の列を数値型に変換したい場合などに使う
変換先のデータ型を正確に指定する必要がある(例: 'int64', 'float', 'category')
df['column_name'] = df['column_name'].astype('desired_type')
列の追加
単純に新しい列名を指定して値を代入。
条件に基づいて新しい列を作成する場合は、.apply() や .map() メソッドが便利。
df['new_column_name'] = value_or_array
drop()
列を削除することができる。
axis=1 を指定することで列の削除を示せる。
※axis=0は行
行を削除する場合は、ラベル(インデックス)を指定する必要がある。
df.drop('column_name', axis=1, inplace=True)
まとめ✍️
基本だが、データが消してしまったり、データを崩したりすることには注意を払わないといけないなと感じた。