2020年5月中旬以降の日々のニュースでは、COVID-19 による日本国内の死者数はそこそこ多い。総感染者数と総死亡者数の比である死亡率が 4% を超える日々が続く。季節性インフルエンザの死亡率は教科書的には 0.1% くらいのようなので、実に 40 倍である。高年齢や持病による偏りが大きいという情報が正しいなら、そういった人々ではもっと死亡率が高い事になる。
へぇ、そうなんだ... と思ったときにまずやるべきは、データのプロットである。報道から受ける印象を真に受ける前に、その印象と、自分なりにプロットしたときの印象を比較しなければならない。そこで欧州疾病対策センター (European Centre for Disease prevension and Control, ECDC) のデータから日本の部分を取り出してプロットしてみた。
まず、死亡率。日ごとの感染者発生数に対する、その日の死亡者数の比である。死亡者の割合が高いな、と思ったからまずそれを見てみる(灰色は標準誤差)。
どうやら、2020/04/07 に緊急事態宣言が出たとき(元旦から97日目)くらいから、急速に上昇している感じである(縦軸は常用対数なので注意)。日々の死亡率で言えば 4% どころか、50% を超える日さえある。感染者の半数が死んだ?そんなバカな!と思うのが普通である。あれだけ自粛ムードになったんだから、事態は収まってくることが期待されるし、そうなるはずである。スペイン風邪でもそんなに死んでない。そこで、死亡率を計算する元となっている、感染者発生数と死亡者数を見てみる。
赤が感染者発生数、青緑が死亡者数である。あぁなるほど、という感じである。緊急事態宣言の出た二週間後くらいに、感染者発生数は減少に転じている。しかし死亡者数の減少はそれからさらに二週間くらい遅れている。「死亡率 = 死亡者数 / 感染者発生数」なので、分母が小さくなっていっているのに分子の減少が遅れていれば、分数の値は大きくなるのも納得できる。つまり、事態の変動が早いのである。
なお感染者発生数と死亡者数について、値が0の日はデータから除いた(対数が未定義なので)。値が1の日は、対数空間では0としてプロットされている。こういったデータは一般化線形モデル (GLM) が適切といわれる事もあるが、この感染者発生数のデータについては、GLM では残差の分布が均一ではなく、あまりよくなかった。
まぁ時系列データのモデリングは、試行錯誤でいろいろ探すのが基本、という事である。