SQL ⇄ Pandas 変換チートシート（上級対応）

Posted at 2025-05-23

はじめに

PtyhonのPandasはSQLの操作と対応づけると理解しやすいので、

概念	SQL	Pandas	戻り値型
テーブル全体	`table`	`df`	`pd.DataFrame`
単一列	`SELECT col FROM table`	`df['col']`	`pd.Series`
複数列	`SELECT col1, col2`	`df[['col1', 'col2']]`	`pd.DataFrame`
単一行	`SELECT * FROM table WHERE id=1`	`df.loc[1]` or `df.iloc[1]`	`pd.Series`
セル	`SELECT col WHERE id=1`	`df.loc[1, 'col']`	スカラー（int等）

SQL	Pandas	備考
GROUP BY	`df.groupby('col')`	`.mean()`, `.sum()`など適用
GROUP BY 複数列	`df.groupby(['col1', 'col2'])`
HAVING	`.filter(lambda x: 条件)`	groupbyのあとで使う
COUNT(*)	`df['col'].count()` or `df.groupby(...).size()`
DISTINCT	`df['col'].unique()` or `df.drop_duplicates()`

SQL	Pandas	備考
`ROW_NUMBER() OVER (...)`	`df.sort_values(...).reset_index()`	連番は `df.reset_index()`など
`RANK()`, `DENSE_RANK()`	`df['rank'] = df['col'].rank(method='dense')`	`method='min', 'dense', etc.`
`MOVING AVG`（移動平均）	`df['col'].rolling(window=3).mean()`	窓幅指定
`CUMSUM`, `CUMAVG`	`df['col'].cumsum()`, `expanding().mean()`	累積処理
PARTITION BY + ORDER BY	`df.groupby('key')['col'].rolling(...)`（やや複雑）	GroupBy + Rollingの組み合わせ

DataFrame（df）
├─ df['col'] → Series（1列）
├─ df[['col1', 'col2']] → DataFrame（複数列）
├─ df.loc[3] → Series（1行）
├─ df.iloc[3, 2] → スカラー（セル1つ）

df.query('price > 100 and volume < 1000')
df.groupby('sector')['price'].mean()
df.assign(change = df['close'] - df['open'])