2012年の統計検定1級医薬生物学の問2の(1)の内容を一部改変しています。
問題設定
群1(コーヒーを飲む)・群2(コーヒーを飲まない)と、ケース(うつ病)・コントロール(うつ病でない)で分割した 2×2 表が与えられているとする。
ケース | コントロール | 計 | |
---|---|---|---|
群1 | a | b | N1 |
群2 | c | d | N2 |
目的(Goal)
群2に対する群1の 対数オッズ比(log odds ratio; logOR)の標準誤差$SE(\log{OR})$を求める。
$$
SE(\log{OR}) = \sqrt{\frac{1}{a}+\frac{1}{b}+\frac{1}{c}+\frac{1}{d}}
$$
求め方(Method)
方針:セル数 (a,c) を確率変数として定義し、二項分布でモデル化 → 正規近似 → デルタ法で($\log{OR}$) の分散を得る。→ 推定量の標準誤差
1) 確率モデルの定義
群1, 群2のケース数を確率変数$A, C$とする
$A, C$は互いに独立で二項分布に従うので、
\begin{align}
A &\sim \mathrm{Bin}(N_1, p_1)\\
C &\sim \mathrm{Bin}(N_2, p_2)
\end{align}
2) 正規近似
二項分布は大標本で中心極限定理により正規分布に近似できる。近似した確率変数を$T_1, T_2$とすると
\begin{align}
T_1 = \frac{A}{N_1}&\approx N\!\left(p_1,\ \frac{p_1(1-p_1)}{N_1}\right) \\
T_2 = \frac{C}{N_2} &\approx N\!\left(p_2,\ \frac{p_2(1-p_2)}{N_2}\right)
\end{align}
3) オッズの確率変数の導出
各群のオッズ(確率変数)を、確率変数$T_1, T_2$を用いて定義する。
\begin{align}
O_1
&= \frac{T_1}{1-T_1}\\[6pt]
O_2
&= \frac{T_2}{1-T_2}
\end{align}
4) 対数オッズ比の確率変数の定義
2群のオッズ確率変数 $O_1, O_2$ をもとに、対数オッズ比を確率変数として定義する。
\begin{align}
\log{\mathrm{OR}}
&= \log\!\left(\frac{O_1}{O_2}\right)\\[6pt]
&= \log\!O_1 - \log\!O_2
\end{align}
ここで$f(x) = \log\left(\frac{x}{1-x}\right)$となる関数$f$を用いると
\begin{align}
\log{\mathrm{OR}}
&= f(T_1) - f(T_2)
\end{align}
5) デルタ法による近似
群$i\hspace{2pt}(i \in \lbrace1,2\rbrace)$に対してデルタ法で1次近似を行うと
\begin{align}
f(T_i) \sim N\left(f(p_i), \lbrace f^\prime(p_i)\rbrace^2 V[T_i]\right)
\end{align}
先ほど定義した関数
f(x) = \log\!\left(\frac{x}{1-x}\right)
に対して1階導関数は
f^\prime(x) = \frac{1}{x(1-x)}
したがって$f(T_i)$の分散は
\begin{align}
V[f(T_i)] &= \lbrace f^\prime(p_i)\rbrace^2 V[T_i]\\[6pt]
&= \left\lbrace\frac{1}{p_i(1-p_i)}\right\rbrace^2
\frac{p_i(1-p_i)}{N_i}\\[6pt]
&=\frac{1}{N_i\hspace{1pt}p_i(1-p_i)}
\end{align}
よって$f(T_i)$が従う分布は
\begin{align}
f(T_i) \sim N\left(f(p_i), \frac{1}{N_i\hspace{1pt}p_i(1-p_i)}\right)
\end{align}
対数オッズ比が従う分布の分散(正規分布の再生性)
- 対数オッズ比が従う分布は正規分布の再生性より正規分布に従う
\begin{align}
\log{\mathrm{OR}} &= f(T_1)-f(T_2)\\[6pt]
&\sim N\left(f(p_1)-f(p_2),
\frac{1}{N_1\hspace{1pt}p_1(1-p_1)}+
\frac{1}{N_2\hspace{1pt}p_2(1-p_2)}
\right)
\end{align}
したがって求める分散は
\begin{align}
V[\log{\mathrm{OR}}]
&=
\frac{1}{N_1\hspace{1pt}p_1(1-p_1)}+
\frac{1}{N_2\hspace{1pt}p_2(1-p_2)}
\end{align}
6) 標準誤差
$T_1, T_2$の推定量はそれぞれ分割表から、
\begin{align}
\hat{p_1} &= \frac{a}{N_1}\\[6pt]
\hat{p_2} &= \frac{c}{N_1}\\[6pt]
\end{align}
と表せる。したがって対数オッズ比の推定量$\widehat{\log{\mathrm{OR}}}$の標準誤差は
\begin{align}
SE[\widehat{\log{\mathrm{OR}}}] &=
\sqrt{\frac{1}{N_1\hspace{1pt}\hat{p_1}(1-\hat{p_1})}+
\frac{1}{N_2\hspace{1pt}\hat{p_2}(1-\hat{p_2})}}\\[6pt]
&=
\sqrt{\frac{1}{a}+\frac{1}{b}+\frac{1}{c}+\frac{1}{d}}
\end{align}