1
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

統計検定一級の問題をAIで解いてみた

Last updated at Posted at 2025-08-31

2024年医薬生物学の問4[3]をGPT4, Gemini 2.5Pro, Grok3に解かせてみた。2025年8月31日現在、正解したのはGPT4とGrok3。実質的に解いたといえるのはGPT5だけ。ただし、Grok4でないと公正な評価とは言えない。

問題

プラセボ ($j=0$) に対する,試験治療 40mg ($j=1$), 80mg ($j=2$), 120mg ($j=3$) の3用量の効果をランダム化比較試験によって検討した。群 $j$ ($j=0$ 1, 2, 3) の試験参加者 $i (i = 1, \cdots, n_j$) の結果変数 $Y_{ij}$ は互いに独立に平均 $\mu_j$,分散 $\sigma^2$ の正規分布に従うとする。分散 $\sigma^2$ は既知とし,各群の結果変数の平均を $\bar{Y_j} = \sum_{i=1}^{n_j} Y_{ij} / n_j$ とする。以下の各問に答えよ。

[1] 3つの帰無仮説
$$H_{01} : \mu_0 = \mu_1, \quad H_{02} : \mu_0 = \mu_2, \quad H_{03} : \mu_0 = \mu_3$$
に対して,それぞれ第1種の過誤確率が 2.5% である検定を使用した。各検定の検定統計量は互いに独立であるとしたとき,$\mu_0 = \mu_1 = \mu_2 = \mu_3$ の下で,少なくとも1つの帰無仮説が棄却される確率 (FWER; familywise error rate) を求めよ。

[2] 上問 [1] の条件の下で,FWER を $\alpha$ 水準以下に制御するために,ボンフェローニ (Bonferroni) 手順を使用することにした。この下での各検定の有意水準を求めよ。

[3] 一元配置分散分析 (有意水準は $\alpha$) によって,帰無仮説 $H_0 : \mu_0 = \mu_1 = \mu_2 = \mu_3$ が棄却されたときに,上問 [1] の3つの帰無仮説 $H_{0j} : \mu_0 = \mu_j$ ($j=1$ 2, 3) に対して,それぞれ $z$ 検定 (有意水準は $\alpha$) を使用することにした。各群の人数によらず,FWER が $\alpha$ 水準以下に制御されるための $\mu_j$ の条件をすべて答えよ。

GPT5の答え:

要点:二段階法(まず一元配置分散分析を水準 $\alpha$ で実施し,棄却時のみ各 $z$ 検定を水準 $\alpha$ で実施)は,一般には強い意味での FWER 制御をしません。FWER を各群人数 $n_j$ に依らず $\le \alpha$ に保てる $\mu$ の条件は次のとおりです。

  1. $H_{01},H_{02},H_{03}$ がすべて真(全群等平均)
    $\mu_0=\mu_1=\mu_2=\mu_3.$
    このとき任意の誤棄却は「ゲート」(ANOVA 棄却) の下でしか起こらず,$\Pr(\text{ANOVA棄却})=\alpha$ だから $\text{FWER}\le\alpha$。

  2. 真の帰無がちょうど1つ
    例:$\mu_1=\mu_0,\ \mu_2\ne\mu_0,\ \mu_3\ne\mu_0$(あるいはその置換)。
    このとき

$$\text{FWER}=\Pr(\text{その1つを誤棄却}\ \cap\ \text{ANOVA棄却})
\le \Pr(\text{その1つを誤棄却})=\alpha.$$

  1. 真の帰無が0(すべて対立が真)
    $$\mu_1\ne\mu_0,\ \mu_2\ne\mu_0,\ \mu_3\ne\mu_0$$
    このとき $\text{FWER}=0$。

逆に,真の帰無がちょうど2つ(例:$\mu_1=\mu_0,\ \mu_2=\mu_0,\ \mu_3\ne\mu_0$)では,$n_j$ が大きくなるとゲートはほぼ確実に開き,水準 $\alpha$ の $z$ 検定が2つ走るため
$$\text{FWER}\to 1-(1-\alpha)^2>\alpha$$
となり制御されません。従って,上の3ケース(全等,ちょうど1つ真,0個真)のときに限り,人数によらず FWER は水準 $\alpha$ 以下に保たれます。

Geminiの答え

FWERが $\alpha$ 水準以下に制御されるための条件は、以下のいずれかが満たされることです。

  • 3つの帰無仮説 ($H_{01}, H_{02}, H_{03}$) がすべて偽である。
    ($\mu_0 \neq \mu_1$ かつ $\mu_0 \neq \mu_2$ かつ $\mu_0 \neq \mu_3$)
  • 3つの帰無仮説のうち、真であるものがちょうど1つだけ存在する。
    (例: $\mu_0 = \mu_1$ かつ $\mu_0 \neq \mu_2$ かつ $\mu_0 \neq \mu_3$)

grok3

[3] $\mu_0 = \mu_1 = \mu_2 = \mu_3$,または $\mu_1 \neq \mu_0,\ \mu_2 \neq \mu_0,\ \mu_3 \neq \mu_0$ のうち少なくとも2つが成立する場合。

別途解説がつくが、長くて意味にない議論なので略

解説-おもにGPT5とともに作った

問4の考え方。少なくとも一本の誤棄却の確率FWERを考える。用量はプラセボを含めて4つの測定を行う。それを$j=0,1,2,3$(プラセボ+3用量)。比較は3本($j=1,2,3$)。それぞれを群と呼び、それぞれの群の試験参加者は$n_j$人である。その測定結果は$Y_{ij}$である。各群の測定値の平均を求めそれを$\bar{Y}_j$であらわす。これらの観測値の真のパラメータの平均を$\mu_j$で表し、どの群の分散も$\sigma^2$で既知とする。3つの帰無仮説を設定し、各帰無仮説は群$0$と群$j$の2つの母平均が等しいとする。それぞれの帰無仮説をH01,H02,H03と呼ぶ。FWERを考える場合には、前提は全等である。つまりどの群の母平均も等しいという前提の下で行う。

[1]は第一種の過誤の問題であり、各検定の検定統計量は独立して、全等の下で、FWERを考える。

事象 $B_j=$を「個別仮説 $H_{0j}:\mu_0=\mu_j$ を水準 $\alpha$ の $z$ 検定で棄却」とする。

$$
\mathrm{FWER}
= P!\Big(\bigcup_{j=1}^{3} B_j\Big)
= 1- P!\Big(\bigcap_{j=1}^{3} B_j^{,c}\Big)
= 1- \prod_{j=1}^{3} P(B_j^{,c})
= 1-(1-\alpha)^3.
$$

$\alpha=0.025$ を代入。

$P!\Big(\bigcup_{j=1}^3 B_j\Big)$
=「少なくとも1本の帰無を棄却する確率」=家族内で1回でも誤棄却が起きる確率(これが FWER の定義)。

$1-P!\Big(\bigcap_{j=1}^3 B_j^{,c}\Big)$
=「1 −(どれも棄却しない確率)」。

独立の仮定を使うと

$1-\prod_{j=1}^3 P(B_j^{,c})=1-(1-\alpha)^3.$

一般形では「真の帰無の集合 $I_0$」に対して $P(\bigcup_{j\in I_0} B_j)$ と書く。

これを別の書き方をすると

全等(3本すべて真)の下で

「誤棄却本数」$K$ は $K\sim \mathrm{Binomial}(3,\alpha).$
したがって

$$
\begin{align*}
P(K=1)&=\binom31\alpha(1-\alpha)^2=3\alpha(1-\alpha)^2,\
P(K=2)&=\binom32\alpha^2(1-\alpha)=3\alpha^2(1-\alpha),\
P(K=3)&=\alpha^3.
\end{align*}
$$

よってFWER(少なくとも1本誤棄却は

$$
P(K\ge1)=3\alpha(1-\alpha)^2+3\alpha^2(1-\alpha)+\alpha^3=1-(1-\alpha)^3.
$$

帰無仮説で棄却されるものが1つの場合は3つ、2つの場合は、3つ、3つの場合は1つと全部で7つある。1つだけ間違える確率は$3\alpha(1-\alpha)^2$、2つ同時に間違える確率は$3\alpha^2(1-\alpha)$で3つ同時に間違える確率は$\alpha^3$である。これらを足し合わせるとFWERがもとまる。

[2]は ボンフェローニ法の知識が必要。FWER を $\alpha$ に抑えるには 各検定の水準 $\alpha/3$。

[3]では[1]のz検定を使うといっているのでこのz検定で標本の大きさによらずに$\alpha$水準以下になるものを探せばよい。FWERがどのように場合分けできるかを考える。その際にANOVAで全等という帰無仮説が棄却されているので、そもそもの前提が全等なのか、それともそうでないものを含むのかを考える必要がある。

各群の人数によらず$\mathrm{FWER}\le \alpha$ が成り立つ $\mu$ の配置を全て挙げるひつようがある。
ここで $\mathrm{FWER}=P\big(A\cap\bigcup_{j\in I_0}B_j\big)$、$I_0$ は真の帰無の添字集合。

場合分けと結論

$A=$「ANOVA(全等)を水準 $\alpha$ で棄却」。

  1. 全等平均($I_0={1,2,3}$)
    ${B_j\ \text{の発生}}\subseteq A\ \Rightarrow\ \mathrm{FWER}=P!\big(A\cap\cup_j B_j\big)\le P(A)\le \alpha.$
    標本サイズに依らず成立。全等平均の下では3つまで過誤が起こる可能性がある。その際のFWERが1以下になれば、Anovaの確率を考慮すると$FWER<\alpha$となる。

$$
P(K\ge 1)=3\alpha(1-\alpha)^2+3\alpha^2(1-\alpha)+\alpha^3=1-(1-\alpha)^3\le 1
$$

  1. 真の帰無がちょうど1本(例:$I_0={1}$)
    $\mathrm{FWER}=P(A\cap B_1)\le P(B_1)=\alpha.$
    標本サイズに依らず成立($A\cap B_1\subseteq B_1$ を使う)。

  2. 真の帰無が0本($I_0=\varnothing$)
    誤棄却は起こり得ないので $\mathrm{FWER}=0$。

  3. 真の帰無が2本(例:$I_0={1,2}$)
    これは一般に制御できない。偽の1本(例:$\mu_3\ne\mu_0$)の効果や $n_3$ を大きくすると $P(A)\to1$。すると
    $\mathrm{FWER}\approx P(B_1\ \text{or}\ B_2)\ =\ 1-(1-\alpha)^2\ =\ 2\alpha-\alpha^2\ >\ \alpha,$
    となる設計が存在。よって「人数によらず $\le\alpha$」は不成立。

よって、標本サイズに依らず $\mathrm{FWER}\le\alpha$ が成り立つのは

  • $\mu_0=\mu_1=\mu_2=\mu_3$
  • ちょうど1本だけ $\mu_j=\mu_0$
  • 0本(全て $\mu_j\ne\mu_0$)
    の3ケースに限る。
    2本が真のときは、ある設計で $\mathrm{FWER}>\alpha$ になり得ます。

[4]はDunnett検定の問題である。Dunnett 検定は「共有対照(プラセボ)に対して複数用量を同時に比較」し、FWER(家族内第1種過誤)を水準 $\alpha$ で強く制御する多重比較法だ。Bonferroni より検出力が高く、用量比較の定番。

前提

  • 各群独立、正規・等分散($\sigma^2$既知)。
  • 対照を $j=0$、用量を $j=1,\dots,3$ とし、各群の標本平均を $\bar Y_j$、サイズを $n_j$、群内分散を $\sigma^2$ として既知。

検定統計量

各比較 $H_{0j}:\mu_j=\mu_0$ に対し

$$
Z_j=\frac{\bar Y_j-\bar Y_0}{\sigma\sqrt{\tfrac{1}{n_j}+\tfrac{1}{n_0}}}\quad (j=1,\dots,3).
$$

ベクトル $(Z_1,\dots,Z_3)$ は多変量正規分布に従い、相関係数は

$$
\rho_{jk}=\frac{1/n_0}{\sqrt{\left(\tfrac1{n_j}+\tfrac1{n_0}\right)\left(\tfrac1{n_k}+\tfrac1{n_0}\right)}}\qquad(j\ne k).
$$

(等サイズなら $\rho_{jk}=1/2$。)
[1] の独立は設問上の仮定。実際には共有対照のため $Z_j$ は相関あり。

判定(両側の例)

臨界定数 $c_D$ を

$$
P!\left(\max_{1\le j\le 3}|Z_j|>c_D\right)=\alpha
$$

となるよう多変量正規分布から求め、各 $j$ で

$$
|Z_j|>c_D\ \Rightarrow\ H_{0j}\ \text{棄却}.
$$

(片側なら $\max Z_j>c_D$。)

[5]

「$\mu_j$ が用量 $d_j$ に対して線形」とは $\mu_j=a+bd_j$ のこと。
よって対比は 中心化用量に比例:
$d=(0,40,80,120)$、$\bar d=60,\quad c\propto d-\bar d=(-60,-20,20,60)\sim(-3,-1,1,3).$

$\sum c_j=0$ を満たし,$Z>0$ なら用量とともに平均が増加する傾向を示す。

[6] の “$c$ は標本サイズに影響”

検定統計
$Z=\frac{\sum c_j\bar Y_j}{\sigma\sqrt{\sum c_j^2/n_j}}.$

  • 等サイズなら $c$ のスケールは $Z$ に無関係(分子・分母で約消)。
  • 不等サイズでは分母が $\sum c_j^2/n_j$ なので $n_j$ の配置と $c$ の取り方が分散に効きます。
  • [6] の相関は等サイズ前提なので、相関は $c,d$ の内積だけで決まり、スケールにも $n$ にも依らない。

$n_0=n_1=n_2=n_3=n$ の下で,二つの対比 $c,d$ に対する統計量の相関は
$\rho=\frac{\sum_{j=0}^3 c_j d_j}{\sqrt{\left(\sum_{j=0}^3 c_j^2\right)\left(\sum_{j=0}^3 d_j^2\right)}}.$

線形傾向 $c^{(L)}=(-3,-1,1,3)$,平均差型 $c^{(A)}=(-3,1,1,1)$ なので
$\sum c^{(L)}_j c^{(A)}_j=12,\quad \sum (c^{(L)}_j)^2=20,\quad \sum (c^{(A)}_j)^2=12.$

ゆえに
$\rho=\frac{12}{\sqrt{20\cdot 12}}=\sqrt{\frac{3}{5}}\approx 0.775.$


Python3ではじめるシステムトレード【第2版】環境構築と売買戦略

「画像をクリックしていただくとpanrollingのホームページから書籍を購入していただけます。

「画像をクリックしていただくとpanrollingのホームページから書籍を購入していただけます。」

1
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?