P値は本当に万能なのか
大学の研究室・ゼミで、よく使われる「 P値 」ですが、P値は欲しい情報を表し切れているのでしょうか?
P値とは
まず、P値の説明をします。
まぐれ当たりの確率 をP値と言います。
P値は、005を基準として、上回れば有意差はない、0.05以下だと有意差はあると、一般的にされている。
例
A:「コインを投げて、表が出たら僕が君に1000円をあげるよ。裏が出たら、君が僕に1000円をちょうだいね。」
B:「いいよ!!」
1回目:裏
A:「約束通り1000円ちょうだい!!まだやる?」
B:「やる!!」
2回目:裏
3回目:裏
4回目裏
A:「やったー!4回連続裏だ!」
B:「イカサマしてないか??」
A:「いや、してないよ・・・・だって、4回連続で裏が出る確率は、6%なんだから!!」
B:「なら、もう一回やろう。これで裏が出たら、5%を下回るから、インチキをしたとしてもいいよね?」
5回目:裏
B:「5回連続裏が出る確率は、3%だよね。これはインチキをしたと断言してもいいよね?」
P値の落とし穴
0.05を基準として、その事例がまぐれなのかどうかを判断できるので、よく使われて信頼できる指標であるとされているが、落とし穴がある。
それは、データの数で大きくP値が変動するということです。
データの数を増やせば、P値は小さくなり、有意差があると判断される0.05を容易に下回ってしいます。
逆にデータ数が少なければ、P値は大きくなり、 「科学的に意味のある差」 なのに、 「統計的には有意差がない」 と結論づけられてしまう可能性が高くなります。
信頼区間
そんなP値の落とし穴をカバーできるのが、「 信頼区間 」です。
一般的には、P値と同様に統計的有意差の判定に用いられる指標です。
多くは「95%信頼区間」が利用されます。
この意味は、「信頼区間に真の値が95%の確率で存在している」ということです。
P値と異なる部分は、 データ数を加味した指標 であるという点です。
信頼区間の求め方
95%信頼区間 = 群間差±1.96 × 群間差のばらつき( **標準誤差** )
標準誤差こそが、データ数の影響を加味してくれています。
標準誤差は
標準誤差 = 標準偏差 ÷ $\sqrt{データ数}\ $
で、求めることがきます。
つまり、データ数が増えれば、信頼区間は狭くなります。
信頼区間の広さ
先ほど、データ数が増えれば、信頼区間が狭くなると数式からわかりました。
「信頼区間が狭くなる」ことは、「真の値が存在する可能性がある区間が狭くなった」ということです。
まとめ
「P値より万能的に使えるのが、データ数の影響を正しく反映した 信頼区間 」ということを頭の片隅に置いておいてください。