はじめに
素人が英語の医学論文を読むのなんか絶対無理と思っていたけど、ガマンして読んでたらなんとなくわかった気になれたというお話です。
感染の発生をポアソン分布でモデル化して、対数尤度関数で推定しましたとのことです。
原論文はこちらです。
 Ascertainment rate of novel coronavirus disease (COVID2 19) in Japan
使用するデータ
- 2月28日時点の都道府県別、年代別の人口と軽症患者数と重症患者数を使います。
$N_{x,a}$ = 県$x$ の 年代$a$ の人口
$D_{ns,x,a}$ = 県$x$ の 年代$a$ の軽症患者数
$D_{s,x,a}$ = 県$x$ の 年代$a$ の重症患者数
$ns$はnon-severe、$s$はsevere、$a$はageの略です。
- 年代別の重症患者に対する軽症患者の割合$f_a$を使います。
$f_a$ = 年代$a$の軽症患者数 ÷ 年代$a$の重症患者数
※ $f_a$は中国で得たデータを使っています。
推定したい値
- 軽症感染者のうち検査で見つかった患者の割合 $k$ を推定します。
$k$ = 検査で見つかった軽症患者数 ÷ 軽症感染者数全体
検査で見つかった人以外にどれくらい軽症感染者がいるの?ということを知りたいわけです。
- 年代別の重症患者の確率$p_{x,a}$を推定します。
$p_{x,a}$ = 年代$a$ の人が重症患者になる確率
年代$a$ の人が軽症感染者になり検査で見つかる確率は以下の式とします。
k \cdot f_a \cdot p_{x,a}
つまり、重症患者の確率$p_{x,a}$に$f_a$をかけると軽症感染者の確率になり、$k$をかけると検査で見つかる確率になるということです。
※論文では $p_{x,a}$ と書かれていますが、おそらく$p_{x,a}$は県$x$には依存しないと思います。
読み間違えていたら、すみません。
ポアソン分布
$p_{x,a}$ はポアソン分布に従うとします。
ポアソン分布は2項分布で、試行回数$n$が大きく確率$p$が小さい場合に、$\lambda$を一定に保った場合の極限です。
$$
\lambda = n \cdot p   \qquad (n \to \infty)
\tag{1}
$$
ポアソン分布で事象が$m$個起こる確率は以下の式になります。
\frac{\lambda^m \exp(-\lambda)}{m!}
\tag{2}
重症患者の確率
県$x$では年代$a$の重症患者という事象が$D_{s,x,a}$個ありました。
また、県$x$の年代$a$の人口は$N_{x,a}$で、重症患者になる確率は$p_{x,a}$なので、式(1)から$\lambda$は以下になります。
$$
\lambda = N_{x,a} \cdot p_{x,a}
$$
この$\lambda$を式(2)に代入すると重症患者の確率は以下になります。
\frac{(N_{x,a} p_{x,a} )^{D_{s,x,a}} \exp(- N_{x,a} p_{x,a})}{D_{s,x,a} !}
\tag{3}
軽症患者の確率
同様に県$x$の年代$a$の軽症患者の事象は$D_{ns,x,a}$個ありました。
県$x$の年代$a$の人口は$N_{x,a}$で、検査で見つかる軽症患者の確率は$k f_a p_{x,a}$なので、式(1)から$\lambda$は以下になります。
$$
\lambda = N_{x,a} \cdot k f_a p_{x,a}
$$
この$\lambda$を式(2)に代入すると軽症患者の確率は以下になります。
\frac{ (N_{x,a} k f_a p_{x,a}) ^{D_{ns,x,a}} \exp(- N_{x,a} k f_a p_{x,a} )}{D_{ns,x,a} !}
\tag{4}
対数尤度
式(3)と式(4)から同時確率の対数尤度は以下になります。
\ln[\Pi_x \Pi_a  
\frac{(N_{x,a} p_{x,a} )^{D_{s,x,a}} \exp(- N_{x,a} p_{x,a} )}{D_{s,x,a} !}
\cdot
\frac{ (N_{x,a} k f_a p_{x,a}) ^{D_{ns,x,a}} \exp(- N_{x,a} k f_a p_{x,a} )}{D_{ns,x,a} !}
]
対数の中の積を外に出して和にすると
 = \sum_x \sum_a \ln[ 
\frac{(N_{x,a} p_{x,a} )^{D_{s,x,a}} \exp(- N_{x,a} p_{x,a} )}{D_{s,x,a} !}
\cdot
\frac{ (N_{x,a} k f_a p_{x,a}) ^{D_{ns,x,a}} \exp(- N_{x,a} k f_a p_{x,a} )}{D_{ns,x,a} !}
]
この式を $k$ や $p_{x,a}$ で偏微分して0とおくと、$k$ や $p_{x,a}$の最尤推定はできそうです。
論文ではプロファイル尤度信頼区間で信頼度を求めたとありますが詳しい内容は分かりませんでした。
論文の結論は $k$の推定値は0.44で、95%の信頼区間は0.37~0.50でした。
つまり、検査で見つかった軽症患者数の2倍くらいしか日本には軽症感染者はいないということです。
おわりに
感染症については素人ですので、間違えてるところもあるかもしれません。
誤りなどがあれば、コメント欄で指摘していただければ助かります。
ここまで読んでいただき、ありがとうございました。