Introduction
COVID-19のデータ(PCR陽性者数など)のデータを簡単にダウンロードして解析できるPythonパッケージ CovsirPhyを作成しています。
紹介記事:
英語版のドキュメントはCovsirPhy: COVID-19 analysis with phase-dependent SIRs, Kaggle: COVID-19 data with SIR modelにて公開しています。
今回はCOVID-19の実データをダウンロードする方法についてご説明します。
英語版:
1. 実行環境
CovsirPhyは下記方法でインストールできます!
Python 3.7以上, もしくはGoogle Colaboratoryをご使用ください。
- 安定版:
pip install covsirphy --upgrade
- 開発版:
pip install "git+https://github.com/lisphilar/covid19-sir.git#egg=covsirphy"
# データ表示用
from pprint import pprint
# CovsirPhy
import covsirphy as cs
cs.__version__
# '2.8.2'
実行環境 | |
---|---|
OS | Windows Subsystem for Linux |
Python | version 3.8.5 |
本記事の表及びグラフは2020/9/11時点のデータを使用して作成しました。
2. まとめ
以下4行でデータをダウンロードできます。
data_loader = cs.DataLoader("input")
jhu_data = data_loader.jhu()
population_data = data_loader.population()
oxcgrt_data = data_loader.oxcgrt()
下記3種類のデータがCOVID-19 Data Hub1より自動で、"input"ディレクトリ(フォルダ)に保存されます。データ整形もよしなにやってくれます。
- 感染者数/回復者数/死亡者数に関する各国・各地域の時系列データ
- 各国・各地域の人口データ
- Oxford Covid-19 Government Response Tracker (OxCGRT): COVID-19に対する各国の対策状況を数値化したデータ
データ整形はCovsirPhy側で行っていますが、データのダウンロード自体はCOVID-19 Data Hub公式のパッケージcovid19dh
に依存しています。開発者の方とも連携2してエラーが発生しないように努めていますが、何かあればCovsirPhyのissueページからご連絡ください!
3. DataLoader class
データのダウンロードと整形を行うユーザーインターフェイスです。以下のように第1引数に"input"と与えると、各データが"input"ディレクトリにダウンロードされます。
data_loader = cs.DataLoader("input")
ディレクトリ名は変更可能です。第1引数のデフォルトは"input"となっており、省略も可能です。
4. DataLoader.jhu()
「感染者数/回復者数/死亡者数に関する各国・各地域の時系列データ」をダウンロードするメソッドです。最新データがダウンロードされていない場合のみダウンロードを実行します。ダウンロード済の場合は保存データの読み込みと整形のみ行います。
# verbose=True: ダウンロード時データの引用元を表示
jhu_data = data_loader.jhu(verbose=True)
type(jhu_data)
# -> <class 'covsirphy.cleaning.jhu_data.JHUData'>
もともとジョンズ・ホプキンス大学のデータを直接ダウンロードしていた関係で"jhu"というメソッド名を使っています。
データの引用元3はDataLoader
のインスタンスから確認できます。
# COVID-19 DataHubの情報 -> (出力結果は省略)
print(jhu_data.citation)
# データの引用元リスト -> (出力結果は省略)
print(data_loader.covid19dh_citation)
# ダウンロードしたデータを表示(pandas.DataFrame) -> (出力結果は省略)
jhu_data.raw.tail()
JHUData.cleaned()
により、日付/国名/地域名/確定症例数(PCR陽性者数)累計/現在の感染者数/死亡者数累計/回復者数累計のデータをデータフレーム形式(pandas.DataFrame
)で取得できます。
jhu_data.cleaned().tail()
Date | Country | Province | Confirmed | Infected | Fatal | Recovered | |
---|---|---|---|---|---|---|---|
211098 | 2020-09-07 | Colombia | Vichada | 14 | 0 | 0 | 14 |
211099 | 2020-09-08 | Colombia | Vichada | 14 | 0 | 0 | 14 |
211100 | 2020-09-09 | Colombia | Vichada | 14 | 0 | 0 | 14 |
211101 | 2020-09-10 | Colombia | Vichada | 14 | 0 | 0 | 14 |
211102 | 2020-09-11 | Colombia | Vichada | 14 | 0 | 0 | 14 |
国によっては国全体の値と地方ごとの値が両方登録されていますので、jhu_data.cleaned().groupby("Country").sum()
では国別の正しい集計データを取得できません。そのため特定の国や地域のデータを取り出すメソッドJHUData.subset(country, province)
を用意しました。出力結果からは国名と地域名の列が省略されます。
# 国名のみ選択 -> (出力結果は省略)
jhu_data.subset(country="Japan")
# 国名についてはISO3コードでもOK -> (出力結果は省略)
jhu_data.subset(country="JPN")
# 地方名も選択
jhu_data.subset(country="JPN", province="Tokyo").tail()
Date | Confirmed | Infected | Fatal | Recovered | |
---|---|---|---|---|---|
172 | 2020-09-07 | 21849 | 2510 | 372 | 18967 |
173 | 2020-09-08 | 22019 | 2470 | 378 | 19171 |
174 | 2020-09-09 | 22168 | 2349 | 379 | 19440 |
175 | 2020-09-10 | 22444 | 2478 | 379 | 19587 |
176 | 2020-09-11 | 22631 | 2439 | 380 | 19812 |
注意:4次データ(都/国/有志の国内団体/COVID-19 Data Hub)であり、東京都発表の数値とは異なる場合があります。
時系列グラフを作成したい場合はcs.line_plot()
関数をどうぞ(関数を非推奨にしてクラス化する可能性あり、検討中)。
cs.line_plot(
subset_df.set_index("Date").drop("Confirmed", axis=1),
title="Japan/Tokyo: cases over time",
filename=None, # ファイルに出力する場合はファイル名を設定する
y_integer=True, # y軸を整数値に。×10などを使用しない
)
さらに、全世界の合計値を取得するメソッドJHUData.total()
もご用意しました。割合データ付きです。
jhu_data.total().tail()
Date | Confirmed | Infected | Fatal | Recovered | Fatal per Confirmed | Recovered per Confirmed | Fatal per (Fatal or Recovered) |
---|---|---|---|---|---|---|---|
2020-09-07 | 2.71499e+07 | 8.06515e+06 | 890441 | 1.81943e+07 | 0.0163986 | 0.335071 | 0.0466573 |
2020-09-08 | 2.73868e+07 | 8.10302e+06 | 895203 | 1.83886e+07 | 0.0163437 | 0.33572 | 0.0464225 |
2020-09-09 | 2.76653e+07 | 8.15167e+06 | 901058 | 1.86126e+07 | 0.016285 | 0.336388 | 0.0461758 |
2020-09-10 | 2.7954e+07 | 8.2298e+06 | 906678 | 1.88175e+07 | 0.0162173 | 0.33658 | 0.0459678 |
2020-09-11 | 2.79547e+07 | 8.22937e+06 | 906696 | 1.88187e+07 | 0.0162172 | 0.336592 | 0.045966 |
5. DataLoader.population()
「各国・各地域の人口データ」を1日単位で取得するメソッドです。
population_data = data_loader.population()
print(type(population_data))
# -> <class 'covsirphy.cleaning.population.PopulationData'>
PopulationData.cleaned()
により、ISO3コード/国名/地域名/日付/人口のデータを取得できます。また各国/各地域の値の取得にはPopulationData.value(country, province)
をご使用ください。
# データフレーム形式で整形データを取得 -> 出力結果は省略
population_data.cleaned().tail()
# 国名のみ選択 -> int
population_data.value(country="Japan")
# 国名についてはISO3コードでもOK -> int
population_data.value(country="JPN")
# 地方名も選択 -> int
population_data.value(country="JPN", province="Tokyo")
人口の値はPopulationData.update(value, country, province)
メソッドで更新できます。
# 更新前 -> 13942856
population_data.value(country="Japan", province="Tokyo")
# 更新
# https://www.metro.tokyo.lg.jp/tosei/hodohappyo/press/2020/06/11/07.html
population_data.update(14_002_973, "Japan", province="Tokyo")
# 更新後 -> 14002973
population_data.value("Japan", province="Tokyo")
6. DataLoader.oxcgrt()
「Oxford Covid-19 Government Response Tracker (OxCGRT): COVID-19に対する各国の対策状況を数値化したデータ」を1日単位で取得するメソッドです。データの詳細についてはリンクをご確認ください。データをどのように解析に用いるかについては別記事でご紹介する予定ですが、現在も模索中です。
oxcgrt_data = data_loader.oxcgrt()
print(type(oxcgrt_data))
# -> <class 'covsirphy.cleaning.oxcgrt.OxCGRTData'>
OxCGRTData.cleaned()
により、ISO3コード/国名/日付/各Indexのデータを取得できます。地域ごとのデータは含まれていません。OxCGRTData.subset(country)
も地域名は指定できません。
# データフレーム形式で整形データを取得 -> 出力結果は省略
oxcgrt_data.cleaned().tail()
# 国名のみ選択可能
oxcgrt_data.subset(country="Japan")
# 国名についてはISO3コードでもOK
oxcgrt_data.subset(country="JPN")
Date | School_closing | Workplace_closing | Cancel_events | Gatherings_restrictions | Transport_closing | Stay_home_restrictions | Internal_movement_restrictions | International_movement_restrictions | Information_campaigns | Testing_policy | Contact_tracing | Stringency_index | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
247 | 2020-09-07 | 1 | 1 | 1 | 0 | 0 | 1 | 1 | 3 | 2 | 2 | 1 | 30.56 |
248 | 2020-09-08 | 1 | 1 | 1 | 0 | 0 | 1 | 1 | 3 | 2 | 2 | 1 | 30.56 |
249 | 2020-09-09 | 1 | 1 | 1 | 0 | 0 | 1 | 1 | 3 | 2 | 2 | 1 | 30.56 |
250 | 2020-09-10 | 1 | 1 | 1 | 0 | 0 | 1 | 1 | 3 | 2 | 2 | 1 | 30.56 |
251 | 2020-09-11 | 1 | 1 | 1 | 0 | 0 | 1 | 1 | 3 | 2 | 2 | 1 | 30.56 |
7. あとがき
今回はCovsirPhyを用いて各データを取得する方法をご説明しました。短いコードで簡単に取得できるようにがんばりましたので、ぜひご使用ください!フィードバックもお待ちしております。
次回は実データを用いた解析方法の説明について記事を作成する予定です。使用例に加えて、なるべく技術的なバックグラウンドについても記載しようと思います。よろしくお願いします!
お疲れさまでした!
-
Guidotti, E., Ardia, D., (2020), “COVID-19 Data Hub”, Journal of Open Source Software 5(51):2376, doi: 10.21105/joss.02376. ↩
-
GitHub issue: CovsirPhy (Python package for COVID-19 analysis) will use COVID-19 Data Hub #87 ↩
-
COVID-19 Data Hubは二次データです!ジョンズ・ホプキンス大学のデータなどをもとに、欠損値処理などの前処理をデータベース側で行ってくれています。大変感謝。 ↩