P値は本当に万能なのか

大学の研究室・ゼミで、よく使われる「 P値」ですが、P値は欲しい情報を表し切れているのでしょうか？

P値とは

まず、P値の説明をします。
まぐれ当たりの確率 をP値と言います。
P値は、005を基準として、上回れば有意差はない、0.05以下だと有意差はあると、一般的にされている。

例

A：「コインを投げて、表が出たら僕が君に1000円をあげるよ。裏が出たら、君が僕に1000円をちょうだいね。」
B：「いいよ！！」
1回目：裏
A：「約束通り1000円ちょうだい！！まだやる？」
B：「やる！！」
2回目：裏
3回目：裏
4回目裏
A：「やったー！4回連続裏だ！」
B：「イカサマしてないか？？」
A：「いや、してないよ・・・・だって、4回連続で裏が出る確率は、6%なんだから！！」
B：「なら、もう一回やろう。これで裏が出たら、5%を下回るから、インチキをしたとしてもいいよね？」
5回目：裏
B：「5回連続裏が出る確率は、3%だよね。これはインチキをしたと断言してもいいよね？」

P値の落とし穴

0.05を基準として、その事例がまぐれなのかどうかを判断できるので、よく使われて信頼できる指標であるとされているが、落とし穴がある。

それは、データの数で大きくP値が変動するということです。

データの数を増やせば、P値は小さくなり、有意差があると判断される0.05を容易に下回ってしいます。
逆にデータ数が少なければ、P値は大きくなり、 「科学的に意味のある差」 なのに、 「統計的には有意差がない」 と結論づけられてしまう可能性が高くなります。

信頼区間

そんなP値の落とし穴をカバーできるのが、「 信頼区間 」です。
一般的には、P値と同様に統計的有意差の判定に用いられる指標です。

多くは「95%信頼区間」が利用されます。
この意味は、「信頼区間に真の値が95%の確率で存在している」ということです。

P値と異なる部分は、 データ数を加味した指標 であるという点です。

信頼区間の求め方

95%信頼区間 = 群間差±1.96 × 群間差のばらつき( **標準誤差** )

標準誤差こそが、データ数の影響を加味してくれています。

標準誤差は
標準誤差 = 標準偏差 ÷ $\sqrt{データ数}\ $
で、求めることがきます。

つまり、データ数が増えれば、信頼区間は狭くなります。

信頼区間の広さ

先ほど、データ数が増えれば、信頼区間が狭くなると数式からわかりました。

「信頼区間が狭くなる」ことは、「真の値が存在する可能性がある区間が狭くなった」ということです。

まとめ

「P値より万能的に使えるのが、データ数の影響を正しく反映した 信頼区間 」ということを頭の片隅に置いておいてください。

P値と信頼区間