#1 対象データ
東京都庁がCOVID-19の感染者データを公開しています。
前回に引き続き、このCSVデータを処理したいと思います。
東京都が公表している感染者データ
https://catalog.data.metro.tokyo.lg.jp/dataset/t000010d0000000068/resource/c2d997db-1450-43fa-8037-ebb11ec28d4c
(CSVファイル)
https://stopcovid19.metro.tokyo.lg.jp/data/130001_tokyo_covid19_patients.csv
#2 プログラム
東京都が公開しているデータは新型コロナウイルスの陽性反応の方一人一人の年齢、性別、公表年月日などです。公表年月日ごとの件数を得たいのですが、そのためには、SQLでいうところのGROUP BY やCOUNTのような処理を行う必要があります。
下記のプログラムで日ごとの件数が得られました。
import pandas as pd
data = pd.read_csv('130001_tokyo_covid19_patients.csv',header=0) #header=0 先頭行をヘッダとする
# 抽出する列 sqlでいうところの groupby、カウント関数
li = data[['No','公表_年月日']].groupby('公表_年月日').agg(['count'])
print(li )
#3 参考にしたサイトなど
[Python]pandasを使ってcsvファイルの読み込み
https://qiita.com/f_kazqi/items/0e8e948be44ef2003f71
read_csv でヘッダあり・なしCSVの読み込み
https://qiita.com/yuba/items/d09e387a1ec191eb2738
pandasのインデックス参照で行・列を選択し取得
https://note.nkmk.me/python-pandas-index-row-column/
Pandasでデータの個数を数え上げるcount関数の使い方
https://deepage.net/features/pandas-count.html