この記事はBrainPad Advent Calender 2023 13日目の記事です。
はじめに
数ある統計手法の中でも特に多くの場面で目にするp値ですが、正しく解釈するには難しい概念だと考えています。実際、p値の誤用が蔓延している状況を危惧し、アメリカ統計学会から多くの統計学者達の意見を踏まえたp値に関する声明が出されたことからも、p値は議論の余地のある概念であることが窺い知れます。
この記事は、このような統計分野の中でも多用される手法でありながら、実は難しい概念であるp値について、自身の理解を整理したものです。
内容には注意を払いつつ記述していますが、誤りがある場合はご指摘頂けますと幸いです。
p値の誤用
p値について、しばしば次のように解釈しようとする場面を見かけます。
- 「p値は帰無仮説が正しい確率を表す」
- 「p値は帰無仮説の下で得られたデータが偶然観測された確率を表す」
- 「p値は帰無仮説を棄却したときに犯す誤りの確率を表す」
- 「p値が大きい場合は帰無仮説を採択すべきである」
- 「p値が小さいことは効果が大きいことを示す」
これらは全てp値を誤って解釈している例です。以下ではp値の概念を振り返りつつ、これらが誤用であることを見ていきます。
仮説検定のおさらい
まずはp値のベースとなる統計的仮説検定の考え方についておさらいします。
仮説検定は、母集団のパラメータに関する相反する2つの仮説(帰無仮説、対立仮説)のどちらが妥当かを、観測データを通じて推測するプロセスであり、以下の手続きに従って実行します。
- 帰無仮説が正しいことを仮定する
- 観測データから検定統計量を算出する
- 検定統計量の観測値が帰無仮定の下では確率的に"ほぼありえない"ような値を取ったとき、帰無仮説を棄却し、対立仮説を受容する
この、"確率的にほぼありえない"と見なす確率の大きさを有意水準といい1、検定の実施にあたり事前に設定するものです。この有意水準には慣例的には5%という値が用いられます。
このような、観測データから帰無仮説を反証する形で対立仮説を受け入れる手続きは、しばしば「確率的な背理法」に準えて説明されます。
より具体的に、仮説検定は検定統計量とそれに応じた棄却域を設定することによって行われます。上図はこのイメージを図にしたものです。
まず、仮想的に帰無仮説が成り立つと考えた場合に、検定統計量の値として得られる確率が低い領域として棄却域を定義し、そこに検定統計量の値が落ちたときに帰無仮説を棄却します(左図)。棄却域は多くの場合、有意水準$\alpha$に依存したある値$c_\alpha$(これを棄却限界値といいます)を基準にして、それより検定統計量が大きくなる領域として定義されます。
実際に対立仮説が成り立つような状況では、高い確率で検定統計量が棄却域に入ることが期待されるため、高い確率で帰無仮説を棄却し対立仮説を採択することができます(右図)2。この、対立仮説が成り立つ下で正しく帰無仮説を棄却できる確率を検出力といいます。
このように、検定方式は検定統計量と棄却域(棄却限界値)によって特徴づけられ、簡便に
T(X) > c_\alpha \Rightarrow \mathrm{reject} \ H_0
と表現されます。ここで、$T(X)$は検定統計量、$H_0$は帰無仮説です。
p値とは
検定の手続きでは、設定した有意水準$\alpha$に対し、検定統計量の値が$c_\alpha$を超えたか否かの情報のみを出力し、それによって対立仮説を採択するか否かを判断します。しかし、より詳細に「どのくらい小さい$\alpha$まで帰無仮説を棄却することができたか」という情報を出力できると便利です。それを表現した量がp値です。
簡単のため、帰無仮説がパラメータ集合上の一点$H_0: \theta = \theta_0$で表される状況3を考えます。$T(X) > c_\alpha \Rightarrow \mathrm{reject} \ H_0$という検定方式に対し、p値は以下の式により定義されます。
\mathrm{pval}(x^{\mathrm{obs}}) = P_{\theta_0}(T(X) \geq T(x^{\mathrm{obs}}))
このような形で定義されたp値は、以下の性質を満たすことが知られています。
P_{\theta_0}(\mathrm{pval}(X) \leq \alpha) = \alpha \quad (0 < \alpha < 1)
これは、任意の有意水準$\alpha$に対し、「p値が$\alpha$以下のときに帰無仮説を棄却する」という検定方式が有意水準$\alpha$の検定になっていることを表します。つまりp値は、元々の「検定統計量と棄却限界値との比較」に基づく検定方式($T(X) > c_\alpha \Rightarrow \mathrm{reject} \ H_0$)を有意水準との比較による検定方式($\mathrm{pval}(X) \leq \alpha \Rightarrow \mathrm{reject} \ H_0$)に読み替えたもであると理解できます。このように、有意水準との比較ができるように検定統計量を変換することで、「どの有意水準までなら帰無仮説を棄却できたか」という情報を表したものがp値です。逆に言うと、p値はそれ以上の意味は持たず、p値の算出自体が推測について新たな情報を与えているわけではないと理解しています。
p値はしばしば「観測データよりも極端な値を取る確率」という言葉で表現されます。もちろん、この表現自体に一切の誤りはないのですが、個人的にはこの表現が誤解の種になっているのではないかと感じています。まず、「極端な」という表現が曖昧であり、どの方向が極端かについて恣意性を含みうるように聞こえます。しかし実際には、前述の通り、p値は検定方式に対して自動的に定まる量です。加えて、「確率」と表現していることが「仮説が正しい確率」なり「仮説の下で観測されたデータを得る確率」なり、「p値は何らかの確率を表している」といった誤った解釈を招いているのではないかと思います。個人的には、p値は「検定統計量を有意水準と比較できるように変換したもの」くらいで表現する方がしっくりくるように感じます。
p値の誤用を振り返る
以上の話を踏まえつつ、冒頭のp値に関する誤解について振り返ります。
「p値は帰無仮説が正しい確率を表す」
古典的な統計学の立場では、帰無仮説は真のパラメータの値に応じて成立しているのか成立していないかのいずれかを想定します4。したがって、古典統計に立脚した仮説検定、ひいてはp値において「仮説が正しい確率」という解釈をすることはそもそもナンセンスです。
「p値は帰無仮説の下で得られたデータが偶然観測された確率を表す」
「p値は帰無仮説を棄却したときに犯す誤りの確率を表す」
あえて数式で書くと前者は$P_{\theta_0}(X = x^\mathrm{obs})$、後者は$P(H_0 \ | \ \mathrm{reject} \ H_0)$となりますが、いずれの解釈も上記のp値の定義と照らし合わせると適切ではありません。
「p値が大きい場合は帰無仮説を採択すべきである」
これは検定の背理法的な考え方に背くと考えられます。背理法では、AとBいずれか一方が成り立つという前提の下、Aを仮定して矛盾が生じた際にBを支持することができます。しかし、矛盾が生じなかった場合、そのことがAが正しいと主張する根拠にはなりません。
「p値が小さいことは効果が大きいことを示す」
検定における推測の対象は帰無仮説が正しいか否かのみであり、定量的な推測を対象にしません。また、帰無仮説が誤っている場合には、サンプルサイズを大きくすることでいくらでもp値を小さく、つまり検出力を大きくできます。
仮説検定の難しさ
ここまでp値とその典型的な誤用について整理しましたが、最後にそもそもの仮説検定の持つ難しさに触れつつ、利用する際に留意すべき点ついて補足します。
統計モデルに関する仮定
仮説検定を利用することで妥当な推論を行うことができるのは当然、仮定した統計モデルが正しいという前提に基づいています。ただし実際問題、統計モデルに関する仮定の妥当性は検証が困難であり、往々にして作業仮説的なものになりがちです5。そのような中、利用者としてはせめて、手法の前提を理解せず機械的に適用するのではなく、どのような前提に立って検定を適用しているかを認識することを忘れない姿勢を持ちたいものです。
有意水準という量の曖昧さ
検定を適用する上で難しい点の一つは、仮説を棄却するか受容するという0か1かの結論が、有意水準なる非常に恣意的かつ曖昧な基準に大きく依存していることです。結局を$\alpha$をどれくらいの値に設定するべきなのかは全く明らかではなく、慣例的用いられている0.05にも正当性は全くありません。重要なことは、そのような問題点を認識したうえで、算出したp値と有意水準との形式的な比較から行った二者択一的な結論のみを報告するのではなく、行った手続きと得られた結果を透明に報告する姿勢にあると言えます。
おわりに
議論を呼びがちな概念であるp値について、自分なりの理解を整理しました。より詳細な議論や一次資料が気になる方は、下記の参考資料をご覧ください。また、解釈や内容に誤りがある場合はご指摘頂けますと幸いです。
最後までご覧いただきありがとうございました。
参考資料
- Ronald L. Wasserstein & Nicole A. LazarRonald L. Wasserstein & Nicole A. LazarRonald L. Wasserstein. (2016), The ASA Statement on p-Values: Context, Process, and Purpose. The American Statistician, 70:2, 129-133.
- Goodman S. (2008), A dirty dozen: twelve p-value misconceptions. Semin Hematol, 45(3), 135-40.
- 京都大学大学院医学研究科 聴講コース 臨床研究者のための生物統計学「仮説検定とP値の誤解」 佐藤俊哉
- 日本評論社 経済セミナー 2022年6・7月号「再現性問題における統計学の役割と責任」 マクリン謙一郎
- 名古屋大学出版会「統計学を哲学する」 大塚淳
- 学術図書出版社「現代数理統計学」 竹村彰通
-
より正確には、有意水準とは第一種の過誤を許容する確率の限界値です。 ↩
-
むしろ「(一定の有意水準の下で)できるだけ検出力が高くなるように棄却域が設定されている」という表現の方が正確かもしれません。典型的に利用される検定手法は、基本的には検出力の意味で最も望ましいものとなるように設計されています。 ↩
-
このような状況を仮説が単純であるといいます。 ↩
-
一方、ベイズ流の立場では「仮説が正しい確率」という解釈は許容されます。このように、ベイズと比較して、p値は興味の対象である仮説が正しいかどうかを直接的には評価できないという点で批判を受けることがあります。 ↩
-
取得されるサンプルがi.i.d.であることや、そもそも「真の分布がある」と想定すること自体も一種の作業仮説と言って良いかもしれません。 ↩