毎回データフレームを編集するとき、同じようなことをやっているのに毎回忘れてしまっている気がするので、使えそうなものを自分用にメモしておく
# 必要ライブラリのimport
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
df_titanic = sns.load_dataset("titanic")
# 項目名の日本語化
columns_t = ['生存', '等室', '性別', '年齢', '兄弟配偶者数',
'両親子供数', '料金', '乗船港コード', '等室名',
'男女子供', '成人男子', 'デッキ', '乗船港', '生存可否', '独身']
df_titanic.columns = columns_t
df_titanic.head()
列ごとの欠損値の数を確認する
df.isnull().sum()
列の項目ごとに個数をカウントする
df["乗船港"].value_counts()
統計値を取得する
df.describe()
特定の項目でグループ化(集約)する
df.groupby("性別").mean()
特定の列を削除する
df.drop("生存可否", axis = 1)
axis = 0にしたら行を削除する
欠損値のある行を削除する
df = df.dropna(subset = ["乗船港コード"])
上記の[]は複数にしてもよい
欠損値を特定の値で埋める
#平均値を入れる場合を考える
age_average = df["年齢"].mean()
df = df.fillna({"年齢": age_average})
list, numpy, series, dataframeの変換
このサイトがまとまっているので参照する
https://irohaplat.com/python-convert-arrays-list-numpy-dataframe-series/
matplotlib関連
このサイト見てみる(メモ)
https://lib-arts.hatenablog.com/archive/category/Matplotlib