LoginSignup
3
4

More than 5 years have passed since last update.

P値と信頼区間

Posted at

P値は本当に万能なのか

大学の研究室・ゼミで、よく使われる「 P値 」ですが、P値は欲しい情報を表し切れているのでしょうか?

P値とは

まず、P値の説明をします。
まぐれ当たりの確率 をP値と言います。
P値は、005を基準として、上回れば有意差はない、0.05以下だと有意差はあると、一般的にされている。

A:「コインを投げて、表が出たら僕が君に1000円をあげるよ。裏が出たら、君が僕に1000円をちょうだいね。」
B:「いいよ!!」
1回目:裏
A:「約束通り1000円ちょうだい!!まだやる?」
B:「やる!!」
2回目:裏
3回目:裏
4回目裏
A:「やったー!4回連続裏だ!」
B:「イカサマしてないか??」
A:「いや、してないよ・・・・だって、4回連続で裏が出る確率は、6%なんだから!!」
B:「なら、もう一回やろう。これで裏が出たら、5%を下回るから、インチキをしたとしてもいいよね?」
5回目:裏
B:「5回連続裏が出る確率は、3%だよね。これはインチキをしたと断言してもいいよね?」

P値の落とし穴

0.05を基準として、その事例がまぐれなのかどうかを判断できるので、よく使われて信頼できる指標であるとされているが、落とし穴がある。

それは、データの数で大きくP値が変動するということです。

データの数を増やせば、P値は小さくなり、有意差があると判断される0.05を容易に下回ってしいます。
逆にデータ数が少なければ、P値は大きくなり、 「科学的に意味のある差」 なのに、 「統計的には有意差がない」 と結論づけられてしまう可能性が高くなります。

信頼区間

そんなP値の落とし穴をカバーできるのが、「 信頼区間 」です。
一般的には、P値と同様に統計的有意差の判定に用いられる指標です。

多くは「95%信頼区間」が利用されます。
この意味は、「信頼区間に真の値が95%の確率で存在している」ということです。

P値と異なる部分は、 データ数を加味した指標 であるという点です。

信頼区間の求め方

95%信頼区間 = 群間差±1.96 × 群間差のばらつき( **標準誤差** )

標準誤差こそが、データ数の影響を加味してくれています。

標準誤差は
標準誤差 = 標準偏差 ÷ $\sqrt{データ数}\ $
で、求めることがきます。

つまり、データ数が増えれば、信頼区間は狭くなります。

信頼区間の広さ

先ほど、データ数が増えれば、信頼区間が狭くなると数式からわかりました。

「信頼区間が狭くなる」ことは、「真の値が存在する可能性がある区間が狭くなった」ということです。

まとめ

「P値より万能的に使えるのが、データ数の影響を正しく反映した 信頼区間 」ということを頭の片隅に置いておいてください。

3
4
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
4