定義
2020年1月から12月までの東京の月の平均湿度と、
同じ期間の東京のコロナの新規感染者数の月の平均数で相関係数を出し、0.5以上あったら関係していることとする
利用したデータ
湿度データは気象庁から
地域は東京
データは湿度のみで、月別に
期間は2020年のみ
東京のコロナ感染者数のデータ
ソースコード
import numpy
import json
import requests
import datetime
# 気象情報の読み込み
json_open = open("output.json")
weatherData = json.load(json_open)
# print(weatherData)
# コロナ情報の読み込み
response = requests.get("https://raw.githubusercontent.com/tokyo-metropolitan-gov/covid19/development/data/data.json")
covidData = response.json()
covidDateData = covidData["contacts"]["data"]
# print(covidData["contacts"]["data"][0])
# 湿度だけのデータにする
humidityMonth = []
for wd in weatherData:
humidityMonth.append(int(wd["平均湿度(%)"]))
# print(humidityMonth)
# コロナ情報を2020年だけ月別に集計
covidMonthTotal = [0,0,0,0,0,0,0,0,0,0,0,0]
for d in covidDateData:
dt = datetime.datetime.strptime(d["date"], '%Y-%m-%d')
if dt.year == 2020:
covidMonthTotal[dt.month-1] += d["小計"]
# print(covidMonthTotal)
# データを用意
x = numpy.array(humidityMonth)
y = numpy.array(covidMonthTotal)
# 相関行列を計算
coef = numpy.corrcoef(x, y)
# 相関行列を表示
print("湿度とコロナ感染者数の相関係数")
print(coef[1][0])
結果は、0.3891040023369774
考察
(コメントをいただいてから考察を追記しています。いただいたコメントは大変参考になりましたし、自分も感じていたことのため、これらをまとめるような形になりました。また、的外れなまとめになってしまったらすみません。コメントいただいた方々ありがとうございます!)
- 前提として今回の場合、相関係数が0.5以上という基準は低すぎる
- コロナ感染者数は様々な要因があるため
- 参考:https://qiita.com/StrawBerryMoon/items/0fd0d48df64c8869cd9a
- 月別平均値では大雑把すぎるし、データが少ない
- コロナ感染は時差があるのではないか
- 例えば、湿度が高い時期の2週間後と比べる
- 東京以外のエリアも調査し、コロナ感染者数に関連する要因をできるだけ少なくする
- 緊急事態宣言が一番の要因だと感じるし