4
4

More than 1 year has passed since last update.

pythonでDataFrameを処理するときに使う式

Last updated at Posted at 2022-02-23

毎回データフレームを編集するとき、同じようなことをやっているのに毎回忘れてしまっている気がするので、使えそうなものを自分用にメモしておく

# 必要ライブラリのimport
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

df_titanic = sns.load_dataset("titanic")
# 項目名の日本語化
columns_t = ['生存', '等室', '性別', '年齢', '兄弟配偶者数', 
             '両親子供数', '料金', '乗船港コード', '等室名', 
             '男女子供', '成人男子', 'デッキ', '乗船港', '生存可否', '独身']
df_titanic.columns = columns_t
df_titanic.head()

image.png

列ごとの欠損値の数を確認する

df.isnull().sum()

image.png

列の項目ごとに個数をカウントする

df["乗船港"].value_counts()

image.png

統計値を取得する

df.describe()

image.png

特定の項目でグループ化(集約)する

df.groupby("性別").mean()

image.png

特定の列を削除する

df.drop("生存可否", axis = 1)

axis = 0にしたら行を削除する

欠損値のある行を削除する

df = df.dropna(subset = ["乗船港コード"])

上記の[]は複数にしてもよい

欠損値を特定の値で埋める

#平均値を入れる場合を考える
age_average = df["年齢"].mean()

df = df.fillna({"年齢": age_average})

list, numpy, series, dataframeの変換

このサイトがまとまっているので参照する
https://irohaplat.com/python-convert-arrays-list-numpy-dataframe-series/

matplotlib関連

このサイト見てみる(メモ)
https://lib-arts.hatenablog.com/archive/category/Matplotlib

4
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
4