2024年医薬生物学の問4[3]をGPT4, Gemini 2.5Pro, Grok3に解かせてみた。2025年8月31日現在、正解したのはGPT4とGrok3。実質的に解いたといえるのはGPT5だけ。ただし、Grok4でないと公正な評価とは言えない。
問題
プラセボ ($j=0$) に対する,試験治療 40mg ($j=1$), 80mg ($j=2$), 120mg ($j=3$) の3用量の効果をランダム化比較試験によって検討した。群 $j$ ($j=0$ 1, 2, 3) の試験参加者 $i (i = 1, \cdots, n_j$) の結果変数 $Y_{ij}$ は互いに独立に平均 $\mu_j$,分散 $\sigma^2$ の正規分布に従うとする。分散 $\sigma^2$ は既知とし,各群の結果変数の平均を $\bar{Y_j} = \sum_{i=1}^{n_j} Y_{ij} / n_j$ とする。以下の各問に答えよ。
[1] 3つの帰無仮説
$$H_{01} : \mu_0 = \mu_1, \quad H_{02} : \mu_0 = \mu_2, \quad H_{03} : \mu_0 = \mu_3$$
に対して,それぞれ第1種の過誤確率が 2.5% である検定を使用した。各検定の検定統計量は互いに独立であるとしたとき,$\mu_0 = \mu_1 = \mu_2 = \mu_3$ の下で,少なくとも1つの帰無仮説が棄却される確率 (FWER; familywise error rate) を求めよ。
[2] 上問 [1] の条件の下で,FWER を $\alpha$ 水準以下に制御するために,ボンフェローニ (Bonferroni) 手順を使用することにした。この下での各検定の有意水準を求めよ。
[3] 一元配置分散分析 (有意水準は $\alpha$) によって,帰無仮説 $H_0 : \mu_0 = \mu_1 = \mu_2 = \mu_3$ が棄却されたときに,上問 [1] の3つの帰無仮説 $H_{0j} : \mu_0 = \mu_j$ ($j=1$ 2, 3) に対して,それぞれ $z$ 検定 (有意水準は $\alpha$) を使用することにした。各群の人数によらず,FWER が $\alpha$ 水準以下に制御されるための $\mu_j$ の条件をすべて答えよ。
GPT5の答え:
要点:二段階法(まず一元配置分散分析を水準 $\alpha$ で実施し,棄却時のみ各 $z$ 検定を水準 $\alpha$ で実施)は,一般には強い意味での FWER 制御をしません。FWER を各群人数 $n_j$ に依らず $\le \alpha$ に保てる $\mu$ の条件は次のとおりです。
-
$H_{01},H_{02},H_{03}$ がすべて真(全群等平均)
$\mu_0=\mu_1=\mu_2=\mu_3.$
このとき任意の誤棄却は「ゲート」(ANOVA 棄却) の下でしか起こらず,$\Pr(\text{ANOVA棄却})=\alpha$ だから $\text{FWER}\le\alpha$。 -
真の帰無がちょうど1つ
例:$\mu_1=\mu_0,\ \mu_2\ne\mu_0,\ \mu_3\ne\mu_0$(あるいはその置換)。
このとき
$$\text{FWER}=\Pr(\text{その1つを誤棄却}\ \cap\ \text{ANOVA棄却})
\le \Pr(\text{その1つを誤棄却})=\alpha.$$
- 真の帰無が0(すべて対立が真)
$$\mu_1\ne\mu_0,\ \mu_2\ne\mu_0,\ \mu_3\ne\mu_0$$
このとき $\text{FWER}=0$。
逆に,真の帰無がちょうど2つ(例:$\mu_1=\mu_0,\ \mu_2=\mu_0,\ \mu_3\ne\mu_0$)では,$n_j$ が大きくなるとゲートはほぼ確実に開き,水準 $\alpha$ の $z$ 検定が2つ走るため
$$\text{FWER}\to 1-(1-\alpha)^2>\alpha$$
となり制御されません。従って,上の3ケース(全等,ちょうど1つ真,0個真)のときに限り,人数によらず FWER は水準 $\alpha$ 以下に保たれます。
Geminiの答え
FWERが $\alpha$ 水準以下に制御されるための条件は、以下のいずれかが満たされることです。
-
3つの帰無仮説 ($H_{01}, H_{02}, H_{03}$) がすべて偽である。
($\mu_0 \neq \mu_1$ かつ $\mu_0 \neq \mu_2$ かつ $\mu_0 \neq \mu_3$) -
3つの帰無仮説のうち、真であるものがちょうど1つだけ存在する。
(例: $\mu_0 = \mu_1$ かつ $\mu_0 \neq \mu_2$ かつ $\mu_0 \neq \mu_3$)
grok3
[3] $\mu_0 = \mu_1 = \mu_2 = \mu_3$,または $\mu_1 \neq \mu_0,\ \mu_2 \neq \mu_0,\ \mu_3 \neq \mu_0$ のうち少なくとも2つが成立する場合。
別途解説がつくが、長くて意味にない議論なので略
解説-おもにGPT5とともに作った
問4の考え方。少なくとも一本の誤棄却の確率FWERを考える。用量はプラセボを含めて4つの測定を行う。それを$j=0,1,2,3$(プラセボ+3用量)。比較は3本($j=1,2,3$)。それぞれを群と呼び、それぞれの群の試験参加者は$n_j$人である。その測定結果は$Y_{ij}$である。各群の測定値の平均を求めそれを$\bar{Y}_j$であらわす。これらの観測値の真のパラメータの平均を$\mu_j$で表し、どの群の分散も$\sigma^2$で既知とする。3つの帰無仮説を設定し、各帰無仮説は群$0$と群$j$の2つの母平均が等しいとする。それぞれの帰無仮説をH01,H02,H03と呼ぶ。FWERを考える場合には、前提は全等である。つまりどの群の母平均も等しいという前提の下で行う。
[1]は第一種の過誤の問題であり、各検定の検定統計量は独立して、全等の下で、FWERを考える。
事象 $B_j=$を「個別仮説 $H_{0j}:\mu_0=\mu_j$ を水準 $\alpha$ の $z$ 検定で棄却」とする。
$$
\mathrm{FWER}
= P!\Big(\bigcup_{j=1}^{3} B_j\Big)
= 1- P!\Big(\bigcap_{j=1}^{3} B_j^{,c}\Big)
= 1- \prod_{j=1}^{3} P(B_j^{,c})
= 1-(1-\alpha)^3.
$$
$\alpha=0.025$ を代入。
$P!\Big(\bigcup_{j=1}^3 B_j\Big)$
=「少なくとも1本の帰無を棄却する確率」=家族内で1回でも誤棄却が起きる確率(これが FWER の定義)。
$1-P!\Big(\bigcap_{j=1}^3 B_j^{,c}\Big)$
=「1 −(どれも棄却しない確率)」。
独立の仮定を使うと
$1-\prod_{j=1}^3 P(B_j^{,c})=1-(1-\alpha)^3.$
一般形では「真の帰無の集合 $I_0$」に対して $P(\bigcup_{j\in I_0} B_j)$ と書く。
これを別の書き方をすると
全等(3本すべて真)の下で
「誤棄却本数」$K$ は $K\sim \mathrm{Binomial}(3,\alpha).$
したがって
$$
\begin{align*}
P(K=1)&=\binom31\alpha(1-\alpha)^2=3\alpha(1-\alpha)^2,\
P(K=2)&=\binom32\alpha^2(1-\alpha)=3\alpha^2(1-\alpha),\
P(K=3)&=\alpha^3.
\end{align*}
$$
よってFWER(少なくとも1本誤棄却は
$$
P(K\ge1)=3\alpha(1-\alpha)^2+3\alpha^2(1-\alpha)+\alpha^3=1-(1-\alpha)^3.
$$
帰無仮説で棄却されるものが1つの場合は3つ、2つの場合は、3つ、3つの場合は1つと全部で7つある。1つだけ間違える確率は$3\alpha(1-\alpha)^2$、2つ同時に間違える確率は$3\alpha^2(1-\alpha)$で3つ同時に間違える確率は$\alpha^3$である。これらを足し合わせるとFWERがもとまる。
[2]は ボンフェローニ法の知識が必要。FWER を $\alpha$ に抑えるには 各検定の水準 $\alpha/3$。
[3]では[1]のz検定を使うといっているのでこのz検定で標本の大きさによらずに$\alpha$水準以下になるものを探せばよい。FWERがどのように場合分けできるかを考える。その際にANOVAで全等という帰無仮説が棄却されているので、そもそもの前提が全等なのか、それともそうでないものを含むのかを考える必要がある。
各群の人数によらず$\mathrm{FWER}\le \alpha$ が成り立つ $\mu$ の配置を全て挙げるひつようがある。
ここで $\mathrm{FWER}=P\big(A\cap\bigcup_{j\in I_0}B_j\big)$、$I_0$ は真の帰無の添字集合。
場合分けと結論
$A=$「ANOVA(全等)を水準 $\alpha$ で棄却」。
- 全等平均($I_0={1,2,3}$)
${B_j\ \text{の発生}}\subseteq A\ \Rightarrow\ \mathrm{FWER}=P!\big(A\cap\cup_j B_j\big)\le P(A)\le \alpha.$
標本サイズに依らず成立。全等平均の下では3つまで過誤が起こる可能性がある。その際のFWERが1以下になれば、Anovaの確率を考慮すると$FWER<\alpha$となる。
$$
P(K\ge 1)=3\alpha(1-\alpha)^2+3\alpha^2(1-\alpha)+\alpha^3=1-(1-\alpha)^3\le 1
$$
-
真の帰無がちょうど1本(例:$I_0={1}$)
$\mathrm{FWER}=P(A\cap B_1)\le P(B_1)=\alpha.$
標本サイズに依らず成立($A\cap B_1\subseteq B_1$ を使う)。 -
真の帰無が0本($I_0=\varnothing$)
誤棄却は起こり得ないので $\mathrm{FWER}=0$。 -
真の帰無が2本(例:$I_0={1,2}$)
これは一般に制御できない。偽の1本(例:$\mu_3\ne\mu_0$)の効果や $n_3$ を大きくすると $P(A)\to1$。すると
$\mathrm{FWER}\approx P(B_1\ \text{or}\ B_2)\ =\ 1-(1-\alpha)^2\ =\ 2\alpha-\alpha^2\ >\ \alpha,$
となる設計が存在。よって「人数によらず $\le\alpha$」は不成立。
よって、標本サイズに依らず $\mathrm{FWER}\le\alpha$ が成り立つのは
- $\mu_0=\mu_1=\mu_2=\mu_3$
- ちょうど1本だけ $\mu_j=\mu_0$
- 0本(全て $\mu_j\ne\mu_0$)
の3ケースに限る。
2本が真のときは、ある設計で $\mathrm{FWER}>\alpha$ になり得ます。
[4]はDunnett検定の問題である。Dunnett 検定は「共有対照(プラセボ)に対して複数用量を同時に比較」し、FWER(家族内第1種過誤)を水準 $\alpha$ で強く制御する多重比較法だ。Bonferroni より検出力が高く、用量比較の定番。
前提
- 各群独立、正規・等分散($\sigma^2$既知)。
- 対照を $j=0$、用量を $j=1,\dots,3$ とし、各群の標本平均を $\bar Y_j$、サイズを $n_j$、群内分散を $\sigma^2$ として既知。
検定統計量
各比較 $H_{0j}:\mu_j=\mu_0$ に対し
$$
Z_j=\frac{\bar Y_j-\bar Y_0}{\sigma\sqrt{\tfrac{1}{n_j}+\tfrac{1}{n_0}}}\quad (j=1,\dots,3).
$$
ベクトル $(Z_1,\dots,Z_3)$ は多変量正規分布に従い、相関係数は
$$
\rho_{jk}=\frac{1/n_0}{\sqrt{\left(\tfrac1{n_j}+\tfrac1{n_0}\right)\left(\tfrac1{n_k}+\tfrac1{n_0}\right)}}\qquad(j\ne k).
$$
(等サイズなら $\rho_{jk}=1/2$。)
[1] の独立は設問上の仮定。実際には共有対照のため $Z_j$ は相関あり。
判定(両側の例)
臨界定数 $c_D$ を
$$
P!\left(\max_{1\le j\le 3}|Z_j|>c_D\right)=\alpha
$$
となるよう多変量正規分布から求め、各 $j$ で
$$
|Z_j|>c_D\ \Rightarrow\ H_{0j}\ \text{棄却}.
$$
(片側なら $\max Z_j>c_D$。)
[5]
「$\mu_j$ が用量 $d_j$ に対して線形」とは $\mu_j=a+bd_j$ のこと。
よって対比は 中心化用量に比例:
$d=(0,40,80,120)$、$\bar d=60,\quad c\propto d-\bar d=(-60,-20,20,60)\sim(-3,-1,1,3).$
$\sum c_j=0$ を満たし,$Z>0$ なら用量とともに平均が増加する傾向を示す。
[6] の “$c$ は標本サイズに影響”
検定統計
$Z=\frac{\sum c_j\bar Y_j}{\sigma\sqrt{\sum c_j^2/n_j}}.$
- 等サイズなら $c$ のスケールは $Z$ に無関係(分子・分母で約消)。
- 不等サイズでは分母が $\sum c_j^2/n_j$ なので $n_j$ の配置と $c$ の取り方が分散に効きます。
- [6] の相関は等サイズ前提なので、相関は $c,d$ の内積だけで決まり、スケールにも $n$ にも依らない。
$n_0=n_1=n_2=n_3=n$ の下で,二つの対比 $c,d$ に対する統計量の相関は
$\rho=\frac{\sum_{j=0}^3 c_j d_j}{\sqrt{\left(\sum_{j=0}^3 c_j^2\right)\left(\sum_{j=0}^3 d_j^2\right)}}.$
線形傾向 $c^{(L)}=(-3,-1,1,3)$,平均差型 $c^{(A)}=(-3,1,1,1)$ なので
$\sum c^{(L)}_j c^{(A)}_j=12,\quad \sum (c^{(L)}_j)^2=20,\quad \sum (c^{(A)}_j)^2=12.$
ゆえに
$\rho=\frac{12}{\sqrt{20\cdot 12}}=\sqrt{\frac{3}{5}}\approx 0.775.$
Python3ではじめるシステムトレード【第2版】環境構築と売買戦略

「画像をクリックしていただくとpanrollingのホームページから書籍を購入していただけます。

「画像をクリックしていただくとpanrollingのホームページから書籍を購入していただけます。」