pandasのindexはdatetimeにすると便利

Last updated at 2019-06-23Posted at 2019-06-23

はじめに

時系列を含むデータをpandasで処理する場合、indexにdatetime型を指定すると便利だったので、
備忘録的にまとめます。

ネット上で拾ってきた2010年から2019年までの時系列データを使用します。

df["date"] = pd.to_datetime(df["date"])
df = df.set_index("date")
df.head()

indexにdatetime型の方式で日付を指定すると、指定範囲のデータを取得できる。

年の指定

df["2011"].head(2)

date	A	B
2011-01-03	81.67	1663.29
2011-01-04	82.06	1659.39

月の指定

df["2011-3"].head(2)

date	A	B
2011-03-01	81.92	1424.76
2011-03-02	81.84	1374.43

スライスによる範囲指定もできる

df["2012-04":"2012-05"]

8月だけ抜き出すというような処理も可能です。

df[df.index.month == 8]

# 年なら'y'、日なら'D'を指定してください。
# もちろんmeanを他の計算メソッドに当てても計算できます。
df.resample('M').mean()