More than 3 years have passed since last update.

pythonでDataFrameを処理するときに使う式

Last updated at 2022-02-23Posted at 2022-02-23

毎回データフレームを編集するとき、同じようなことをやっているのに毎回忘れてしまっている気がするので、使えそうなものを自分用にメモしておく

# 必要ライブラリのimport
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

df_titanic = sns.load_dataset("titanic")
# 項目名の日本語化
columns_t = ['生存', '等室', '性別', '年齢', '兄弟配偶者数', 
             '両親子供数', '料金', '乗船港コード', '等室名', 
             '男女子供', '成人男子', 'デッキ', '乗船港', '生存可否', '独身']
df_titanic.columns = columns_t
df_titanic.head()

列ごとの欠損値の数を確認する

df.isnull().sum()

列の項目ごとに個数をカウントする

df["乗船港"].value_counts()

統計値を取得する

df.describe()

特定の項目でグループ化(集約)する

df.groupby("性別").mean()

特定の列を削除する

df.drop("生存可否", axis = 1)

axis = 0にしたら行を削除する

欠損値のある行を削除する

df = df.dropna(subset = ["乗船港コード"])

上記の[]は複数にしてもよい

欠損値を特定の値で埋める

# 平均値を入れる場合を考える
age_average = df["年齢"].mean()

df = df.fillna({"年齢": age_average})

list, numpy, series, dataframeの変換

このサイトがまとまっているので参照する
https://irohaplat.com/python-convert-arrays-list-numpy-dataframe-series/

matplotlib関連

このサイト見てみる(メモ)
https://lib-arts.hatenablog.com/archive/category/Matplotlib

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up