pandasの便利関数 #Python

kaggleを始めたのですが、データの前処理でどうすればいいか途方にくれることが多いです。
karnelを読んで見つけたDataFrameの前処理・可視化に便利そうな関数のメモです。

dfは読み込まれてる前提です。

カラムの型、カラムのNanデータ数を一覧表示

df.info()

df.describe(include='all')

df.isna().sum().sort_values(ascending=False)

missing = df.isna().sum().sort_values(ascending=False)
sns.barplot(missing, missing.index)
plt.show()

csvのフィールドに以下のようなデータが文字列として格納されている場合がよくあります。

[{'id': 53, 'name': 'Thriller'}, {'id': 18, 'name': 'Drama'}]

この文字列はPythonのリストの中に複数の辞書が入っています。


import ast

x = "[{'id': 53, 'name': 'Thriller'}, {'id': 18, 'name': 'Drama'}]"

converted_x = ast.literal_eval(x)

literal_evalで文字列をリストや辞書に変換できます。