Pandasによるデータ整理の基本 #Python

はじめに

Pandasによるデータ整理の基本に関しての備忘録です。
コードを書き始めて1年以内の若輩者です😅
もし間違いがあれば、ご指摘いただけると助かります🙇

データ操作の基本のきの字になるもの。
整理することで正しく行う事で分析につながる。

押さえておくべき点

注意点

列名を変更することができる。
辞書型で古い名前をキー、新しい名前を値として指定できる。

inplace=True を指定すると、元のDataFrameが直接変更される。
列だけでなく、インデックス名の変更にも使用できる。

df.rename(columns={'old_name': 'new_name'})

列のデータ型を変更できる
文字列型の列を数値型に変換したい場合などに使う
変換先のデータ型を正確に指定する必要がある（例: 'int64', 'float', 'category'）

df['column_name'] = df['column_name'].astype('desired_type')

単純に新しい列名を指定して値を代入。
条件に基づいて新しい列を作成する場合は、.apply() や .map() メソッドが便利。

df['new_column_name'] = value_or_array

列を削除することができる。
axis=1 を指定することで列の削除を示せる。
※axis=0は行
行を削除する場合は、ラベル（インデックス）を指定する必要がある。

df.drop('column_name', axis=1, inplace=True)

基本だが、データが消してしまったり、データを崩したりすることには注意を払わないといけないなと感じた。