検定の理解と使用の難しさ
統計的検定を用いている論文に再現性がない...
とくに心理学系の論文において深刻な問題になっています。
この問題に対して、
- 帰無仮説検定を禁止すべきだ
- P値の使用を禁止すべきだ
などなど、科学ジャーナルが声明を出すほど深刻なのです。
統計検定はなぜこんなに難しいのか。
この難しさの理由を分析する本を紹介します。『統計学再入門 科学哲学から探る統計思考の原点』という本です。
『統計学再入門 科学哲学から探る統計思考の原点』森本良太
本書の検定についての結論をまず紹介します。
- 現代統計学の検定は、「帰無仮説有意性検定(NHST:null hypothesis significance testing)」と呼ばれる。この理論は一枚岩ではない。実際に、教科書によって、微妙に説明や表現が異なっている。
- これは、フィッシャーによる有意性検定とネイマン・ピアソンによる仮設検定をごちゃ混ぜにしている理論だ。だから、正確な理解と使用が難しい。
- フィッシャーとネイマン・ピアソンが相容れないことの根底には、科学観の違いがある。ゆえに、検定の方法論も交わらない。
この記事では、本書の検定に関する説明を要約します。
検定を正しく深く理解するためにとてもありがたい一冊です!!!著者に感謝。
本書については、こちらの記事でも紹介しています。
要約
フィッシャーによる有意性検定、ネイマン・ピアソンによる仮説検定をそれぞれ要約します。それらの差異に注目しましょう。
フィッシャー流の有意性検定
p値
p値は、帰無仮説のもとで、データから計算する統計量の実現値以上の統計量が得られる確率のこと
以下二つを明確に区別する。
- 仮説の確率
- 仮説の尤度、つまり、仮説のもとでデータが得られる確率。p値は尤度で求められる。
p値は、仮説の誤りを示すために使う。
p値は、仮説の真実性、証拠、効果量には関係ない。
帰無仮説
- 帰無仮説は棄却される機会を与えられるために存在する。
- 帰無仮説の必要条件は、具体的な分布として精緻に表現できることである。ゆえに、統計量と分布を特定する。
- 有意性検定では、設ける仮説は、帰無仮説のみの一つだけである。
- 有意性検定には、ランダム化という前提が必要である。
p値が有意水準より小さいかどうかで帰無仮説を棄却するかしないかを決定する。もともとp値そのものに意味はなかった。しかし、晩年のフィッシャーは、p値の意味を変えた。仮説を採択したくない尺度として解釈した。このような意味づけは現在では否定される。なぜなら、サンプルサイズが増えると、帰無仮説を棄却しやすくなることが示されたからだ。ゆえに、p値を証拠の強さとしては解釈しないのが現在の立場だ。
ネイマン-ピアソン流の仮説検定
- フィッシャーとは異なり、仮説の採択も認める。
- 仮説検定とは、行動の規則や長期施行における意思決定である。
- 保留という第三の選択肢も認める。
- 複数の対立仮説を立てることを認める。(しかし、現在の帰無仮説優位性検定では、一つの対立仮説のみ設定する。)
- 帰無仮説という表現は使わない。帰無仮説は棄却するかどうかに使う概念である。ゆえに、帰無仮説を採択する、という概念はありえない。
2種類の過誤
- 仮説Aが正しいのに棄却してしまう
- 別の仮説A'が正しいのにAを採択してしまう
「過誤」とは判断の誤りのことだ。
ゆえに、たしかに、上記二つは判断の「誤り」と言える。
帰無仮説の棄却は対立仮説の採択と同じか?
- 帰無仮説の棄却と帰無仮説を採択しないことは同じか?
- 帰無仮説の棄却は対立仮説の採択と同じか?
- 帰無仮説が偽であることと対立仮説が真であることは同じか?
現代の教科書風に言うと、
- 第1種の過誤
- 帰無仮説H0が真であるときにH0を棄却する
- 第2種の過誤
- 対立仮説H1が真であるときにH0を採択する
これらは、どちらも誤った判断=過誤と言える。
しかし、以下の表現ならどうだろう?
第1種の過誤
帰無仮説$H_0$が真であるとき、
- $H_0$を棄却する
- $H_0$を採択しない
- $H_1$を棄却しない
- $H_1$を採択する
$H_0$を採択しない、$H_1$を棄却しない、は判断の誤りとは言えない。保留という態度が取れるからだ。
教科書によっては、このように、判断の誤りとは言えないような表現になっているケースがあることに注意しよう。(つまり、ネイマンピアソンの仮設検定の定義に反する表現になってしまっている。)
第1種の過誤は第2種の過誤よりも重要
経済的損失や危険性の大きいものを帰無仮説にとる。こちらを第一種の過誤と設定する。
ネイマンピアソンの補題
第一種の過誤と第二種の過誤はトレードオフの関係にある。
だから、第一種の過誤を犯す可能性をできるだけ小さくしたうえで、第二種の過誤も小さくできるという「ネイマンピアソンの補題」の発見はとても重要だった。
両者の違い
違いは、両者の科学観に起因する。
検定についての考え方
フィッシャー
- 有意性検定とは帰納推論である。
- 検定は誤りを排除する作業である。
ネイマン
- 仮説検定は帰納行動である。
- 観察結果から行動を調整する方法である。
仮説についての判断
-
両者の共通点
- 仮説の採択や棄却と仮説の真偽は異なる。
-
両者の違い
- ネイマンは棄却、採択、保留を認める。一方、フィッシャーは仮説の採択は自然科学の方法ではないと考えた。
対立仮説の設定
フィッシャーは、仮説検定の「対立仮説」を否定した。対立仮説の設定方法とそれに伴う第二種の過誤の確率の計算に科学的な意味があるとは思えないからだ。
母集団からの抽出についての考え方
- フィッシャー
- 同じ母集団から繰り返し抽出することはできない。
- ネイマン
- 同じ母集団から繰り返し抽出できる。
- ネイマンは人間の経験の繰り返しに焦点を当てた。しかし、母集団は何かという問いの答えになっていない。
※コメント
ここの説明がわからなかった。同じ母集団から繰り返し抽出できるかという話と、母集団の集合をどこに設定するのかという話の論理的繋がりが説明不足に感じた。
有意水準の解釈の違い
3つの解釈
- フィッシャー 標準偏差の約2倍を超える範囲の割合、つまり稀な確率という慣例
- ネイマン・ピアソン 同じ母集団から繰り返し標本を抽出したとき、第一種の過誤が生じる相対頻度
- フィッシャーの晩年 有意水準は実験の後に設定できる。 実験ごとに母集団が異なるのだから有意水準は実験ごとに異なる。研究者の間で有意かどうか決めるものだ。
根底にある科学哲学の違い
- 「仮説をもとにする科学観」vs「科学者の心的過程」、という差異があるため、両者の議論は噛み合わない。
- 仮説検定は、実在を理解しようとする科学的思考ではないとフィッシャーは言う。
- 科学は誤った仮説を棄却するだけで、真偽不明な仮説を積極的に採択するような方法ではない。
- 科学哲学者のポパーは、科学とはひたすら仮説を反証の危険にさらし続けることだ、とした。
- ゆえに、有意性検定は、誤りを取り除くための作業である。
- 一方、ネイマンは、科学を研究者の心的過程で特徴づける。
- 仮説検定によって仮説に対して意思決定していくことは科学である。