目的
- pandasでデータの操作の基本方法を学ぶ
環境
Windows11 Pro
Python 3.12.3
VSCode
今回の学習内容
- pandasでのデータ操作
pandasとは
- 表データを扱える
- csvがデータの保存によく使われるらしい
- 表データが「DataFrame」として読み込まれるらしい
- DataFrame:データを表として読み込ませる便利なやつらしい
チートシート
# 準備
import pandas as pd
df = pd.read_csv("csv_file.csv")
##################################
# カラム
col = df.columns.values
# インデックス
ind = df.index.values
# 列データ
df["列名"]
# 複数の列データ
df[["列名1", "列名2"]]
# 行データ
df.loc[行番号]
# 複数の行データ
df.loc[[行番号1, 行番号2]]
# フィールド
df.loc[行番号]["列名"]
# 1列追加
df["追加行名"] = ["行1要素", "行2要素","行3要素"]
# 1行追加
df.loc[追加行番号] = ["要素1", "要素2","要素3"]
# 列削除
df = df.drop("列名", axis=1)
# 行削除
df = df.drop(列番号, axis=0)
# 検索
df = df[df["列名"]条件(例:>= 90)]
# 複数条件検索
## AND
df = df[(df["列名1"] 条件) & (df["列名2"] 条件)]
## OR
df = df[(df["列名1"] 条件) | (df["列名2"] 条件)]
## NOT
df = [~(df["列名"] 条件)]
# 最大値
df["列名"].max()
# 最小
df["列名"].min()
# 平均
df["列名"].mean()
# 中央
df["列名"].median()
# 合計
df["列名"].sum()
# ソート(小 大)
df = df.sort_values("列名")
# ソート(大 小)
df = df.sort_vallues("列名", ascending=False)
# 列と行を入れ替える
df.T
# リスト化
df.values
# 出力
DataFrame.to_csv("ファイル名")
# 出力(インデックス削除)
DataFrame.to_csv("ファイル名", index=False)
# 出力(カラム削除)
DataFrame.to_csv("ファイル名", index = False, header = False)
めでたし。