概要
データサイエンス$\times$コンサルとして働いている筆者が、最近、ビジネスで効果検証の結果をTG(Target Group)とCG(Control Group)で結果を比較した際に有意差を求めるタスクが振られた。その際に片側検定と両側検定をどのように選定すればいいのかを調べ、有識者にも話を聞いたため、その話をまとめようと思う。
検定とは
「統計的仮説検定(検定)」とは確率を元に結論を導く方法である。様々な検定(t-検定など)がある。それぞれの検定に特徴があるがその検定に関しては別のブログでまとめようと思う。(編集中)
片側検定と両側検定
検定する結果が良くなる、または悪くなることに興味がある場合は両側検定を行い、一方で結果が良くなることに興味がある場合(悪くなることに興味がある場合)には片側検定を行う。
例1
例えば簡単な例で言うとコイントスが挙げられる。表(H)と裏(T)の出る確率が 0.5 であると思われるコインが本当に歪んでいないかを検定する。
- 「コインが歪んでいる」という仮説を帰無仮説
- 「コインは歪んでいない」という仮説を対立仮説
と呼ぶ。
100回コイントスを行い、HとTが何回ずつ出たかを測定してその結果からこのコインが歪んでいないことを検定で確認したい。この時、興味があるのはコインが表か裏か偏りすぎていないかであるため、両側検定をするのが適切である。
例2
新品の曲がっていない(Hが出る確率0.5、Tが出る確率0.5)であるコインがあり、Hが出るようにしたいため少し曲げて見た。果たして本当にHが出やすくなったのかを検定で確認する。
- 「コインはHが出やすくはない」という仮説を帰無仮説
- 「コインはHが出やすい」という仮説を対立仮説
と呼ぶ。
同様に100回コイントスを行い、HとTの回数を測定する。ここで興味があるのは出たコインは表に偏っていることであるから片側検定を行うのが適切である。
ビジネス上では
ここまでは理論的な話をしてきたが、実際にどういう場面で両側検定と片側検定を行えばいいのだろうか。何かの施策を打ち出した時にその結果が良くなっているかを確認する場合はどちらの検定を行うべきであろうか。一見良くなるのを確認するためであるから片側検定に思えるかもしれないが、$\alpha$ををその場合(一般的には)0.025に設定するが、なぜ両側検定ではなくかつ$\alpha$を0.05に設定していないのかを説明する必要が出てくる。また、統計ではある程度恣意的に値を操作するのはタブーとされているのも大きな理由の一つだろう。そこまでの労力を割くのであれば、両側検定を行い、帰無仮説を棄却し、実際の測定値を確認して、この施策は有意差があった、と述べる方が圧倒的に労力を必要としない。
では、片側検定は普段どのような場面で使われるべきかと言うと、必ず結果が良くなることが保証された状況であり、その結果が良くなることが偶然なのか否かを調べる時にのみ使われるべきである。
思ったこと
結局のところ、ビジネスでは相手に伝えやすいように工夫するべきであり(恣意的に値を操作するわけではない)、数学的厳密性というのはある程度は緩くしてもいいのかもしれない。