最近、科学哲学者のエリオット・ソーバーが書いた『科学と証拠』という本を読んでいた。統計学の哲学の本で、ベイズ推定、検定、モデル選択etc.様々な統計的推論の方法論を比較検討している。
このうち、統計的検定を検討した部分が特に面白かったので、レジュメ的にまとめておく。ただしはじめに述べておくと、ソーバーは統計的検定に対してかなり批判的である。
統計的検定とは何か
ソーバーは統計的検定をフィッシャー流とネイマン・ピアソン流の二つに分けている。おそらく今日一般的に統計的検定と言われるものはこの二つの考え方が混ざったものだろう。
フィッシャー流
ソーバーはフィッシャー流の統計的検定を確率論的モーダス・トレンスの特別なケースだと考えている。確率論的モーダス・トレンスとは以下のような推論のこと。
- $P(O|H)$が高い
- $\lnot O$
- したがって、$\lnot H$
確率論的でない普通のモーダス・トレンスは以下。
- $H \to O$
- $\lnot O$
- したがって、$\lnot H$
モーダス・トレンスは、普通、論理的に妥当な推論であると考えられている。そして、確率論的モーダス・トレンスは普通のモーダス・トレンスに極めて似ている(あるいは、普通のモーダス・トレンスの自然な一般化に見える)。そのため、確率論的モーダス・トレンスもやはりそれなりの妥当性を持つ推論である(ように見える)。
フィッシャー流の統計的検定は、確率論的モーダス・トレンスの$O$の部分として、「観察された値よりも出やすい値が得られる」を代入したもの。よって、「$P(O|H)$が高い」は「$P(観察された値よりも出やすい値が得られる|H)$が高い」となる。これは「$P(観察された値と同等以上に出にくい値が得られる|H)$が低い」と言い換えられる。ここで問題になる$P(観察された値と同等以上に出にくい値が得られる|H)$をp値という。そして、p値が「低い」と言えるための基準を有意水準といい、通常$\alpha$で表す。
具体例に当てはめるとこう。「コインの表が出る確率$p$が0.5」という仮説を検討する。$\alpha = 0.05$と設定する。コインを20回投げて、4回表が出た。ここから次のように推論するのがフィッシャー流検定。
- $P(表が0-4,16-20回のどれか|p=0.5)=0.012<0.05$(p値チェック)
- 表が0-4,16-20回のどれか(というのも、4回だったから)
- したがって、$p \not= 0.5$
ネイマン・ピアソン流
ネイマン・ピアソン流の検定は次のようなステップで進む。
- 帰無仮説及び対立仮説を設定する。
- 帰無仮説を棄却し対立仮説を受け入れるか、対立仮説を棄却し帰無仮説を受け入れるか、データに基づいてどっちを選ぶかの条件(棄却域)を設定する。
- データを観察、正しい仮説を受け入れる。
まず帰無仮説と対立仮説という、検証したい二つの仮説を設定する。例を挙げると、例えばコインの表が出る確率が$p=1/4$という帰無仮説と、$p=3/4$という対立仮説、という具合。検定においては、この二つの可能性だけが念頭に置かれる。
このどちらを受け入れるべきかを、30回コインを投げ、何度表が出るか見て決定したい。では、何回表が出たら帰無仮説を棄却すれば(その裏返しとして、何回表が出たら帰無仮説を採択すれば)いいだろうか。この「帰無仮説の棄却のためにデータが入らないといけない範囲」のことを、棄却域という。問題は棄却域をどう設定するかにある。
ここで、第1種の誤りと第2種の誤りが区別される。前者は、帰無仮説が真であるのに棄却してしまう誤りで、後者は、対立仮説が真であるのに帰無仮説を採択してしまう誤りである。第1種の誤りが起こる確率、$P(帰無仮説を棄却|帰無仮説が真)=\alpha$を「サイズ」という。第2種の誤りが起こる確率、$P(帰無仮説を採択|対立仮説が真)=\beta$については、通常$(1-\beta)$を「検出力」と呼び、この値で表現する。
サイズはできるだけ小さく、検出力はできるだけ大きくしたい。だがこの二つは一般的にトレードオフの関係にある。ネイマン・ピアソン流検定では、サイズをある一定値未満(通常$0.05$)にboundした上で、検出力を最大化するように棄却域を設定する(最強力検定)。コイン投げの例の場合は、棄却域は表が12回以上出る場合になる。最強力検定にあたる棄却域がどう決まるかは問題によって異なるが、よく現れる種類の問題については決め方が知られている。
(コメント)「棄却域に入らなかったら帰無仮説を採択」というのは、多くの場合マズい解釈だとされることが多い。少し調べたところ、ネイマンもここまで単純な解釈は取っていなかったようだ。少なくとも検出力が十分か調べないとダメ、とするのが普通だろう。
ソーバーによる弱点・問題点の検討
前提として、ソーバーが推しているのは、「検証したい仮説の尤度を、代替仮説の尤度と比較。代替仮説より尤度が高ければ、データで仮説が検証されたことにする」「検証の強さは、代替仮説との尤度比で測る」という尤度主義の立場である。また、必要な事前分布が有意味に想定できる場合は、ベイズ推定を使って関係する仮説の確率を計算すればよいと彼は考えている。
フィッシャー流検定
有意水準の恣意性
確率論的モーダス・トレンス自体の問題として、$P(O|H)$が「高い」と言うための基準が恣意的にならざるを得ない。フィッシャー流の用語で言えば、有意水準が恣意的になるという話。
(コメント)これはその通り。
あらゆる仮説が否定される問題
確率論的モーダス・トレンス自体の問題。サンプルを延々と増やしていくと通常、$P(\lnot O|H)$はどんどん小さくなっていく(p値はどんどん小さくなっていく)。そのため、サンプルさえ十分に確保できれば、確率論的モーダス・トレンスを使うことで、あらゆる仮説を否定することができる。そんな推論は信用すべきでない。
(コメント)これももっとも。「p値が大きいからなんとも言えない」とは言えるだろうが、「p値が小さいからHは嘘」は危険。
代替仮説が存在する場合の問題
確率論的モーダス・トレンス自体の問題。仮説をその代替仮説との関係において検証したい場合、確率論的MTは不適格である。
今、目の前の壺から一つボールを引いたら白だったとする。このデータを元に、「壺から白いボールが出てくる確率は0.2%」という仮説を検証したい。ただし、壺から白いボールが出てくる確率は0.2%か0.01%か、どちらかだとする。
このとき、確率論的MTを使い、有意水準を0.05とすると、「壺から白いボールが出てくる確率は0.2%」という仮説は否定できる。だが、これは明らかに馬鹿げた結論である。なぜなら、代替仮説(0.01%説)よりずっと尤度が高い(20倍)のだから。
あるいはフィッシャー流の検定を使うとして、「壺の40%が赤いボール」という仮説と、「壺の60%が赤いボール」という代替仮説を考え、ある決まった個数のボールを引いて、赤の数で仮説を検定するとしよう。すると、サンプルサイズが増えれば増えるほど、仮説を棄却するのに必要な赤の割合は減っていく。が、仮説と代替仮説のどちらに有利かは50%のラインで常に決まるはずだろう。
(コメント)重要で面白い指摘。
ソーバーの議論には明らかに問題があって、確かに「仮説の尤度が代替仮説より高い」ことを持って「仮説が有利」とすることはできるだろうが、さらに「仮説が十分に有利か?」と問うことができるはずだ。彼は2つ目の例では、ただ代替仮説と尤度を比べて高いか低いかだけを問題にすればよい、と言っているように見える。それでは、検定のモチベーションを掬い取り切れていない。
ただしそうだとしても、対立仮説の尤度を無視してしまうとおかしな棄却が起こるのではないか、という一つ目の例は生きていて、やっぱりこれは変だと思う。おそらく、対立仮説との二者択一の問題設定の場合は、対立仮説に対する尤度比が十分かを考慮する必要があるということになるだろう。
全証拠の原則への違反
フィッシャーの検定は「全証拠の原則」に違反する。全証拠の原則とは、手元のデータをできるだけ論理的に強く記述せよ、という原則である。フィッシャー流の検定は、データの記述を「ある領域に属する」という弱い記述にしてしまうので、ダメ。
(コメント)検定の「胡散臭さ」の説明としてはもっともだと思うが、それ以上のものではない。
というのも、ソーバーは「全証拠の原則」をあくまでベイズ推定と尤度主義において注意すべきものとして導入している(論理的に弱い記述を使った結果、仮説への確証のされかたが全然違ってしまうことがあるから)。その議論は十分に頷けるものだが、だからといって統計的検定にまで「全証拠の原則」を当てはめないといけないことにはならないだろう。
データの区切り方
フィッシャーの検定は、データを「観察された値と同等以上に出にくい値が得られる」という形で記述する。だが、データをどのように区切るかで、この記述の仕方は異なってしまい、恣意性が残る。
コイン投げ20回で4回表が出たデータを考える。このとき、「表の回数が何回か」に着目してデータを区切るなら、「表が0-4,16-20回のどれか」という記述になる。しかし、「表と裏がどんな順序列を作ったか」に着目してデータを区切ると、どんな順序列も出る確率は同じなので、「なんらかの順序列が出た」という記述になってしまう。
(コメント)これもまあ、ごもっともなのではあるが、ちょっといかにも哲学的な懐疑論だなという印象はある。
ネイマン・ピアソン流検定
サイズの上限と帰無仮説設定の恣意性
サイズの上限の設定に恣意性がある。また、二者択一の仮説を考えるときに、どちらを帰無仮説にするかに恣意性がある。
また、「サイズ$\alpha$をboundし検出力$(1-\beta)$を最大化」という問題設定にも恣意性がある。「$\alpha + \beta$を最小化」でも、「$10 \alpha + \beta$を最小化」でもいいではないか。こうした恣意性によって棄却域が変わってしまう。
(コメント)これもまあ、ごもっともな部分もある。だが、帰無仮説の選択が完全に恣意的ということにはならないだろう。「より確実に否定したい」側を帰無仮説にすればいい。
また、最大化問題の設定が恣意的だという件はそうっちゃそうだが、だからってネイマン・ピアソンの決め方がそんなにおかしいというわけではないだろうから、決定的な批判にはならないだろう。
とはいえソーバーも決定的な批判として考えているわけではなく、あくまで尤度主義より恣意性が多いよね、くらいのはず。
尤度の比較
フィッシャー流と同じように、対立仮説よりも帰無仮説の方が尤度が高いのに、帰無仮説が棄却されてしまう場合があり、馬鹿げている。
(コメント)ごもっとも。フィッシャー流は、そもそも対立仮説を念頭に置いていない場合には問題から逃れられるが、ネイマン・ピアソン流は常に対立仮説を置いて考えるから逃げ道がない。
全証拠の原則への違反
フィッシャー流と同じように、全証拠の原則に違反する。
事前分布の無視
ネイマン・ピアソン流は、サイズ$\alpha$が小さく、検出力$(1-\beta)$が大きいことをもって、検定の信頼性を保証する。しかし、帰無仮説が真である事前確率が高い場合、$P(棄却域に入る|帰無仮説が真)=\alpha$も$P(棄却域を外れる|対立仮説が真)=\beta$も小さくても、$P(対立仮説が真|棄却域に入る)$ないし$P(帰無仮説が真|棄却域を外れる)$が非常に小さいということが起こる。
したがって、事前確率を有意味に設定できかつそれが一方に有利な場合、検定を使うと奇妙な結論が出る。素直にベイズ推定をすべきである。
(コメント)ごもっとも。
行儀の悪いデータを解釈できない
次のような性能を持つ結核検査キットがあるとする。
P(陰性|結核である)=0.902 \\
P(陽性|結核でない)=0.001
「結核である」が帰無仮説で、サイズの上限を$0.005$とするなら、このキットは欠陥品であり、検定には使えない。
しかしもし、このキットが使われてしまい、陽性が出たとする。この結果は、尤度主義的には、「結核である」ことに対して非常に有利である。なぜなら、$P(陽性|結核である)=0.098$なので、対立仮説に対して尤度が圧倒的に高い(98倍)からである。
ところが、統計的検定では、この結果の解釈ができない。そもそも検定は実験設定自体を操作の対象と考えるため、まともでない実験設定のデータを解釈できない。
(コメント)ごもっとも。
停止規則の問題
以下はフィッシャー流&ネイマン・ピアソン流の両方に関係がある話で、別に節を取って説明する。
停止規則の関与
「20回のコイン投げで、裏14回のあと表が6回出た」というデータがあるとしよう。このデータから、表が出る確率$p$について、「$p=0.5$」という仮説を(場合によっては適当な代替仮説との関係で)検証したい。
検定を使う場合、どちらの流派であろうと、この記述だけでは仮説の検証ができない。コイン投げの実験の停止規則を調べる必要がある。「20回投げたらやめる」と決めていたか、「表が6回出たらやめる」と決めていたか、どちらかによって結果が異なってくるからである。以下、フィッシャー流を例にとる。
もし「20回投げたらやめる」と決めていた場合、p値は$P(表が0-6,14-20回|p=0.5)=0.115$なので、有意水準0.05で棄却不可能である。ところが、「表が6回出たらやめる」と決めていた場合、p値は$P(20回以上コインを投げる|p=0.5)=0.0319$となり、棄却される。つまり、データの記述をどう弱くするかが、停止規則に依存してしまう。
このように停止規則に統計的検証手続きが依存すること自体が奇妙である。というのも、停止規則は実験者の頭の中にしかないのだから。加えて、そもそも停止規則が復元不可能なデータの場合(停止規則が伝えられていない、そもそも実験者がよく考えずに実験をやっていたなど)は、どうしようもない。
ちなみに、尤度主義やベイズ推定を採用する場合は、この問題は起こらない。データの記述を弱める必要がなく、どちらの停止規則を採用しても、$P(裏14回のあと表が6回|p)=p^6(1-p)^{14}$となるからである。
(コメント)ごもっとも。もちろん検定側は「きっちり停止規則を重視しろ」と開きなおる手もある。
ズルい停止規則の問題
「帰無仮説が棄却されるまでサンプルを採取し続ける」という停止規則を考えよう(一見めちゃくちゃな想定に見えるが、結果を見ながら実験を進めるというのは実際にはいかにもありそうな気がする)。
通常の検定の問題設定だと、このような実験は絶対にやってはならない。サンプルを無際限に取り続ければ、棄却できる確率が1に限りなく近づいていくので、全く実験として意味がない。そのため、有意水準を少しずつ下げていく実験設定法が勧められることになるが、これはいかにもアドホックである。
一方、尤度主義の方法ならばこのような問題は起こらない。例えばコインの表の確率について、$p=0.5$を$p=0.9$に対して棄却したいと考えたとしよう。棄却の条件を尤度比が$1/k$以下になることと設定する。これで「棄却されるまでコインを投げ続ける」と設定したとしても、もしも$p=0.5$だとしたら、どれだけコイン投げが続いたとしても、実験が終了する確率は$1/k$以下になる。つまり、実験設定のせいで誤って仮説が棄却される確率はあらかじめ一定以下に抑えることができる。このようなズルい停止規則の問題についても、尤度主義の方がシンプルで原則的な解決法を提供できる。
(コメント)アドホックで何が悪い、と開き直る手もあるので、決定的な反論ではないが、ごもっとも。
まとめと感想
ソーバーが検定に対してノックアウトパンチを打ち切れているかというと微妙だし、いかにも哲学者的で知らんがなと言いたくなる議論もないではない。とはいえ、検定を使う場合、以下の点は念頭に置いておく必要が確かにあると思ったし、ソーバーもそれで十分だろう。
- 対立仮説があるかどうか、事前分布が設定できるかどうかに気をつけ、尤度比較やベイズ推定をオルタナティブとしてちゃんと考慮する
- 停止規則がわかっているか、そもそも検定を当てはめられる実験設定かどうかに気を付ける
- 諸々の恣意的な前提をちゃんと意識しておく