この記事はBrainPad Advent Calender 13日目の記事です。
最もよく利用されている統計手法の一つである統計的仮説検定ですが、実務においては複数の興味のある仮説を同時に検定したい、というような場面にしばしば出会います。このような場面で検定を複数回繰り返す際に問題となるのが、検定の多重性の問題です。本記事では、この検定の多重性の問題と、それに対処するために必要となる多重比較法について、基礎的な話をまとめました。
多重比較法の必要性
まず、素朴に検定を繰り返すことによって生じる問題を、新薬の効果を検証するという状況を例に取って説明します。$k$種類の新薬の効果を同時に比較するために、プラセボ群におけるアウトカムの母平均を$\mu_0$、新薬$i$を投与した群における母平均を$\mu_i$として、帰無仮説$H_i: \mu_0 = \mu_i \ (i = 1, \dots, m)$を同時に検定することを考えます。ただし、実はこれらの新薬は全く効果がなかったとします(つまり全ての帰無仮説が真)。この時、単にそれぞれの仮説に対して有意水準$\alpha$で検定を行うと、各検定が独立であるという前提の下で、少なくとも一つの帰無仮説を誤って棄却してしまう(すなわち、第一種の過誤を犯す)確率は
1 - (1 - \alpha)^m
となります1。例えば、有意水準を$\alpha=0.05$として検定を$m=10$回繰り返すと、この確率は約$0.4$となり、半分に近い確率で誤りを犯すことになります。
このように、素朴に検定を繰り返したときに、検定の手続き全体において、本来は差がないものに対して「差がある」と主張してしまう確率が高くなり、結果的に誤った結論を導く可能性が高くなる問題を検定の多重性といいます。この検定の多重性に対処するためには、個々の検定の有意水準を調整することで、”検定全体で誤りを犯す確率”を制御する、という考え方が必要となります。それを実現してくれる方法が多重比較法です。
FWERとFDR
多重比較法における誤り率の制御の考え方には大きく2種類あります。一つは仮説全体で誤りを犯す確率を制御するという考え方、もう一つは棄却した仮説の中での誤りの割合を制御する、という考え方です。それぞれFWER、FDRという量を制御することに対応します。
説明のため、以下では$m$個の帰無仮説に対する検定の結果が次のような分割表で表されるとします。ここで、$m$や$m_0$は本来は未知の定数、$R, U, V, S, T$は検定の結果によって変わる確率変数であることに注意して下さい(特に$U, V, S, T$は本来観測されない確率変数)。
FWER (Familywize Error Rate)
FWERは次の式で定義されます。
\mathrm{FWER} = P(V \geq 1)
これはすなわち「少なくとも一つの真の帰無仮説を誤って棄却してしまう確率」です。多重比較法の手続きの下で、定めた有意水準$\alpha$に対し任意のパラメータ配置において$\mathrm{FWER} \leq \alpha$が成り立つとき、FWERは制御されると言います2。
FDR (False Discovery Rate)
一方、FDRは次の式で定義されます。
\mathrm{FDR} = E[Q], \quad Q = \frac{V}{R}
ただし、$R = 0$のときは$Q = 0$と定義します。これは、「棄却した帰無仮説のうち、誤って棄却してしまった仮説の割合(の期待値)」と言い換えられます。FWERと同様に、定めた$\alpha$に対して任意のパラメータ配置の下で$FDR \leq \alpha$が成り立つとき、FDRは制御されると言います。
FWER制御が仮説全体において誤りを犯す確率をコントロールする一方で、FDR制御では棄却した仮説の中で誤っている割合をコントロールするため、より緩い基準であると言えます。実際、FWERとFDRの間には次のような大小関係が成り立ちます(これは$Q \leq \mathbb{I} \lbrace V \geq 1\rbrace$の関係から明らかです)。
\mathrm{FDR} \leq \mathrm{FWER}
したがって、FWERを$\alpha$以下に抑えると、自動的にFDRも$\alpha$以下に抑えられるため、FWERの制御はFDRの制御よりも強い、ということを意味します。
このようにFWER制御はより強い制約を課す一方で、個々の検定の有意水準を厳しく設定するため、保守的になる(つまり個々の検定の検出力が低く、誤った帰無仮説を棄却できない)傾向があります。それと比較すると、FDR制御は「棄却した中での誤りの割合をコントロールする」というより緩い制約のため、比較的高い検出力を保つことができます。
以上のような違いもあり、一般的にはFWERを制御する手法は最初の薬剤の例で示したような、検証的な分析を行う際に用いられます。一方FDRを制御する手法は、検定全体としての誤りは許容するので(一定の保証の下で)棄却される仮説が多く欲しい、というような探索的な分析(典型的には遺伝子解析など)を行う際に用いられます。
代表的な手法
以上の話を踏まえ、具体的な多重比較法の手法について説明します。多重比較法には1. 分布に課す仮定 と 2. 検定する帰無仮説の族(仮説の集合のこと)、3. 制御する量 に応じて様々な手法があり、設定に応じて適切な手法を選択する必要があります。次の表に代表的な手法についてまとめました。
分布の仮定 | 適用対象 | 制御する量 | 手法 |
---|---|---|---|
正規分布 | 全ての群間の対比較 | FWER | Tukeyの方法、Tukey-Welschの方法 |
正規分布 | 一つの群との対比較 | FWER | Dunnettの方法、step-down Dunnett法 |
なし | 任意の帰無仮説 | FWER | Bonferroniの方法、Holmの方法 |
なし | 任意の帰無仮説 | FDR | BH法 |
本記事では、特に汎用的に用いられる手法としてBonferroniの方法、Holmの方法、BH法の3つについて紹介します。以下では、同時に検定する帰無仮説を$H_i \ (i = 1, \dots, m)$で表します。
Bonferroniの方法
Bonferroniの方法はFWERを制御します。
Bonferroniの方法
$m$つの帰無仮説それぞれを有意水準を$\frac{\alpha}{m}$で検定する。
Bonferroniの方法は「各検定の有意水準を検定する回数で割ったものとする」という非常にシンプルな方法です。この方法がFWERを制御することは、Bonferroniの不等式
P\left( \cup_{i=i}^{m} E_i \right) \leq \sum_{i=1}^{m} P(E_i)
から速やかに導かれます。実際、$H_i \ (i = 1, \dots, m)$のうち、正しい帰無仮説に対応するインデックスの集合を$I$と書くと
\begin{align}
\mathrm{FWER} &= P\left(\exists i \in I \ \ \mathrm{reject} H_i \right) = P\left(\cup_{i \in I} \{\mathrm{reject} H_i\} \right) \\
&\leq \sum_{i \in I} P(\mathrm{reject} H_i) = |I| \times \frac{\alpha}{m} \leq \alpha
\end{align}
が成り立ちます(1行目から2行目の間でBonferroniの不等式を使っています)。証明の構成から、Bonferroniの方法がFWERを制御する上で検定の独立性3は必要ありません。
Holmの方法
Bonferroniの方法は非常に明快な手続きではありますが、各検定の有意水準を仮説の数で割るため、仮説の数が多い際には非常に保守的になってしまいます。このBonferroniの方法を改良したものがHolmの方法です。Holmの方法もFWERを制御します。
Holmの方法
各検定でのp値を昇順に並べたものを$p_{(1)} \leq p_{(2)} \leq \cdots \leq p_{(m)}$とし、それぞれに対応する帰無仮説を$H_{(1)}, \dots, H_{(m)}$で表す。$p_{(i)} \leq \frac{\alpha}{m-i+1}$を満たす最大の$i$を$k$としたとき、$H_{(1)}, \dots, H_{(k)}$を棄却する。
Holmの方法はBonferroniの方法と比較して各検定での有意水準の設定が緩いため、より検出力が高くなります。この方法がFWERを$\alpha$以下に制御することは、閉検定手順にのっとることから導かれます。閉検定手順とはFWERを制御するための汎用的な手続きであり、閉検定手順を満たすように構成された検定の手続きは自動的にFWERを制御することが知られています。閉検定手順の原理について、詳しくは後述します。
BH法
BH法(Benjanmini-Hochberg method)はFDRを制御する代表的な手法です。
BH法
各検定でのp値を昇順に並べたものを$p_{(1)} \leq p_{(2)} \leq \cdots \leq p_{(m)}$とし、それぞれに対応する帰無仮説を$H_{(1)}, \dots, H_{(m)}$で表す。$p_{(i)} \leq \frac{i\alpha}{m}$を満たす最大の$i$を$k$としたとき、$H_{(1)}, \dots, H_{(k)}$を棄却する。
$\frac{i\alpha}{m} \geq \frac{\alpha}{m-i+1} \ (i = 1, \dots, m)$の関係より、BH法はHolmの方法よりも検出力が高くなります。各検定が独立であるという仮定の下4、BH法はFDRを制御することが示されます。証明は割愛しますが、テクニカルで面白いので興味のある方はBenjamini and Hochberg (1995)をご覧ください。
閉検定手順
閉検定手順(closed testing procedure)は、FWERを制御するための汎用的な手続きです。以下では、閉検定手順の原理を説明し、Holmの方法がその具体例であることを見ることで、Holmの方法がFWERを制御することを確認します。
説明にあたり、いくつかの用語を定義します。まず、帰無仮説$H_i, H_j$の共通集合として表される仮説$H_i \cap H_j$を$H_{\lbrace i, j\rbrace}$などと表します。例えば、$H_i: \mu_0 = \mu_i \ (i = 1, 2, 3)$であれば、$H_{\lbrace 1, 2 \rbrace}: \mu_0 = \mu_1 = \mu_2, \ H_{\lbrace 1, 2, 3 \rbrace}: \mu_0 = \mu_1 = \mu_2 = \mu_3$です。
次に、仮説族$\mathcal{F}$に対し、任意の仮説$H_P, H_Q \in \mathcal{F}$について$H_P \cap H_Q \in \mathcal{F}$が成り立つとき、仮説族$\mathcal{F}$は閉じていると言います。例えば、$\lbrace H_{\lbrace 1, 2 \rbrace}, H_{\lbrace 2, 3 \rbrace}, H_{\lbrace 3, 1 \rbrace}, H_{\lbrace 1, 2, 3 \rbrace} \rbrace$は閉じた仮説族の一例です。
なお、以下で見るように閉検定手順では仮説族が閉じていることを前提としますが、注目している仮説族が閉じてない場合は、任意の仮説の共通集合を取り新たな仮説を作る、という操作を繰り返すことで”閉じさせた”仮説族を考えます。例えば、仮説族$\lbrace H_1, H_2, H_3 \rbrace$を閉じさせたものは$\lbrace H_1, H_2, H_3, H_{\lbrace 1, 2 \rbrace}, H_{\lbrace 2, 3 \rbrace}, H_{\lbrace 3, 1 \rbrace}, H_{\lbrace 1, 2, 3\rbrace} \rbrace$となります。
最後に、仮説$H_P$が真ならば、仮説$H_Q$も真であるとき、$H_P$は$H_Q$をimplyする、といいます(ただし、自分自身はimplyしないものとします)。例えば、$H_{\lbrace 1, 2 \rbrace}$は$H_1$をimplyします。
以上の準備の下、閉検定手順を次のように定義します。
閉検定手順
$\mathcal{F}$を閉じた仮説族とする。$H_P$をimplyする全ての$H_Q \in \mathcal{F}$と$H_P$自身が有意水準$\alpha$で棄却されたときに$H_P$を棄却する。
閉検定手順に基づくような多重比較法の手続きはFWERを制御します。以下ではこの事実を証明します。
$\mathcal{F}$の中の真の帰無仮説の集合を$\mathcal{G} = \lbrace H_{P_i}: i \in I \rbrace \subseteq \mathcal{F}$とします。$\mathcal{G} = \phi$のとき$\mathrm{FWER} = 0$となるので、$\mathcal{G} \neq \phi$である状況を考えます。
帰無仮説$H_Q = \cap_{i \in I} H_{P_i}$について、$\mathcal{F}$は閉じているので$H_Q \in \mathcal{F}$です。また、$H_Q$自身も真の帰無仮説なので、$H_Q \in \mathcal{G}$も成り立ちます。閉検定手順の手続きから、$H_{P_i} (i \in I)$を棄却する前提として、$H_Q$が有意水準$\alpha$で棄却されていることを踏まえると
FWER = P(\exists H_{P_i} \in \mathcal{G} \ \ \mathrm{reject} H_{P_i}) \leq P(\mathrm{reject} H_Q) \leq \alpha
が成り立ちます。一つ目の不等号は事象の包含関係より、二つ目の不等号は真の帰無仮説$H_Q$に対して有意水準$\alpha$の検定を行っていることより従います。
以上が任意の$\mathcal{G}$で成り立つため、FWERは$\alpha$以下に制御されることが示されました。
閉検定手順の手続きは抽象的なものですが、閉検定手順に基づくことでFWERを制御する多重比較法の手続きを構成することができます。以下では、一例としてHolmの方法が閉検定手順の例となっていることを確認します。
具体的な状況として、3つの帰無仮説$H_1, H_2, H_3$を検定した結果、それぞれに対応するp値が$p_1 \leq p_2 \leq p_3$として得られた、という状況を考えます。前述の通り、閉検定手順を考える際には、閉じていない仮説族に対しても、それを強制的に"閉じさせた"仮説族を想定するので、以下では仮説族$\lbrace H_1, H_2, H_3, H_{\lbrace 1, 2 \rbrace}, H_{\lbrace 2, 3 \rbrace}, H_{\lbrace 3, 1 \rbrace}, H_{\lbrace 1, 2, 3\rbrace} \rbrace$に対して考えます。
まず、最も小さいp値に対応する帰無仮説$H_1$について考えます。$p_1 \leq \frac{\alpha}{3}$が成り立つとき、Bonferroniの方法に従うと、$H_1$自身と$H_1$をimplyする$H_{\lbrace 1, 2 \rbrace}, H_{\lbrace 3, 1 \rbrace}, H_{\lbrace 1, 2, 3 \rbrace}$のそれぞれは全て有意水準$\alpha$で棄却することができます(左図)。したがって、閉検定手順の手続きとして$H_1$を棄却することができます。逆に、$p_1 > \frac{\alpha}{3}$のときは検定を終了し、$H_1, H_2, H_3$の検定の結果は保留されます5。
次に、$H_2$について考えます。前の手続きで既に、$H_2$をimplyする仮説のうち$H_{\lbrace 1, 2 \rbrace}, H_{\lbrace 1, 2, 3 \rbrace}$は有意水準$\alpha$で棄却されていることに注意すると、$p_2 \leq \frac{\alpha}{2}$が成り立つとき、$H_2$自身とそれをimplyする$H_{\lbrace 2, 3 \rbrace}$はそれぞれ有意水準$\alpha$で棄却されるため、閉検定手順の手続きとして$H_2$を棄却することができます(中央図)。逆に$p_2 > \frac{\alpha}{2}$のときは$H_2, H_3$の検定の結果は保留されます。
最後に、$H_3$について考えます。既に$H_3$をimplyする全ての仮説$H_{\lbrace 2, 3 \rbrace}, H_{\lbrace 3, 1 \rbrace}, H_{\lbrace 1, 2, 3 \rbrace}$が有意水準$\alpha$で棄却されていることに注意すると、$p_3 \leq \alpha$が成り立てば、$H_3$自身を有意水準$\alpha$で棄却でき、したがって閉検定手順の手続きとして$H_3$を棄却できます(右図)。逆に$p_3 > \alpha$のときは$H_3$の検定の結果は保留されます。
↑左から$H_1, H_2, H_3$を検定する状況に対応。注目する仮説をimplyする仮説とその仮説自身を青、前のステップで既に有意水準$\alpha$で棄却されている仮説をバツ印で表示。
以上見た手続きがまさにHolmの方法に他ならず、確かに閉検定手順にのっとることが確認できました。
このように、閉検定手順に基づき、先行する検定の結果を後続の検定に利用することで、より検出力の高い(=有意水準の緩い)多重比較法の手続きを構成することができます。これらの方法は一般的にステップダウン法と呼ばれ、Tukey-Welschの方法やstep-down Dunnett法なども一例として挙げられます。
参考文献
- 永田靖・吉田道弘 (1997), 統計的多重比較法の基礎. サイエンティスト社.
- 土居正明 (2015), 多重性制御の基礎理論(閉検定手順), 計量生物学, 36(2), 99-121.
- 松田眞一 (2008), FDRの概説とそれを制御する多重検定法の比較. 計量生物学, 29(2), 125-139.
- Benjamini, Y. and Hochberg, Y. (1995), Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. Journal of the Royal Statistical Society: Series B (Methodological), 57, 289-300.
-
正確には、有意水準とは第一種の過誤を犯す確率のupper boundに過ぎませんが、ここではよくある両側検定のように有意水準が第一種の過誤を犯す確率に一致している状況を想定しています。 ↩
-
より正確には、全ての帰無仮説が正しいときに$\mathrm{FWER} \leq \alpha$が成り立つとき、FWERはweak controlされると言い、任意のパラメータ配置の下で$\mathrm{FWER} \leq \alpha$が成り立つときstrong controlされると言います。当然、それぞれの帰無仮説が正しいかどうかは未知なので、FWERをstrong controlするような検定の手続きを構成することが目的となります。 ↩
-
正確には検定統計量(あるいはp値)の独立性。 ↩
-
より厳密には、真の帰無仮説に対応する検定統計量についてのみ独立性が成り立てば十分です。 ↩
-
一般に、統計的仮説検定は確率的な背理法の考え方に基づくため、帰無仮説の棄却は積極的な主張である一方で、受容は積極的な主張ではありません。多重比較法においてはなおのこと、FWERやFDRの制御を重視する反面、偽の帰無仮説を正しく棄却できる確率(検出力)は低くなります。このニュアンスを表すため、多重比較法の文脈では「受容」の代わりに「保留」という言葉を使うことが多いです。 ↩