More than 5 years have passed since last update.

【IBM Watson】気象観測データをPandasでデータ操作する

Last updated at 2019-03-28Posted at 2019-03-28

概要

前回の記事の続きです。
今回はPandasでもう少し行列データを操作したいと思います。

print('shape:', df_data_1.shape)
print('columns:', df_data_1.columns)

df_data_1[['都道府県', '現在時刻(日)','現在時刻(時)', '現在時刻(分)', '現在値(mm)']]

出力する条件を絞ってみましょう。都道府県が東京都のデータに絞ってみます。
加工する前に、列名は日本語だと何かと難しいです。しかも、気象庁の天気データCSVは列名に半角括弧なども含まれているので、本格的にデータ操作するのであれば、英語に加工したり、半角括弧は変換するなりした方が良いですね。とりあえず、都道府県列で絞ってみました。

df_data_1[['都道府県', '現在時刻(日)','現在時刻(時)', '現在時刻(分)', '現在値(mm)']].query("都道府県=='東京都'")

df_data_1[['都道府県', '現在時刻(日)','現在時刻(時)', '現在時刻(分)', '現在値(mm)']].loc[100:110]

都道府県でgroup byして平均を求めてみます。group by した後にmean()で平均を求めています。ちなみにmaxを指定すると、最大値、minを指定すると最小値を求めることが出来ます。

df_data_1[['都道府県', '現在値(mm)']].groupby(['都道府県']).mean()

df_data_1.describe()

df_data_1[['都道府県', '現在値(mm)']].describe()

df_data_1['都道府県'].value_counts()

必要なカラムを絞って、'現在値(mm)'を降順でソートしてみましょう。sort_valuesでカラムを指定して、ascendingで昇順(True)、降順(False)を指定します。

df_data_1[['都道府県', '現在時刻(日)','現在時刻(時)', '現在時刻(分)', '現在値(mm)']].sort_values("現在値(mm)",ascending=False)