1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

【A/Bテスト】再実験を行なった場合のp値の扱い【フィッシャーの方法】

Last updated at Posted at 2021-08-28

概要

「A/Bテスト実践ガイド」という本を読んだ。
複数回同じ実験を行なった場合のp値の式が載っていたがよくわからなかったので調べながらまとめる。

p値とは

帰無仮説が正しいとした時にその事象がどれくらいの確率で起きるかである。
例えばA/Bテストで介入群とコントロール群の比較を行っているとする。
介入群がコントロール群よりも強いかどうかが知りたい。

この時、帰無仮説として「二つの群で有意差がない」とおく。

例えば実験の結果介入群の結果がコントロール群よりも良く、p値が0.05よりも小さかったとする。
これは「有意差がない」と仮定したときに"たまたま"このような結果が起きる確率が5%より小さいということだ。
つまり、帰無仮説が間違いである可能性が高いので、対立仮説である「有意差がある」を採用するというわけだ。

A/Bテストの集計では95%信頼区間を用いることが多いため、p値が0.05より小さければ有意差ありと判断するケースが多い。

再実験とフィッシャーの式

実験結果に確証が持てない場合、同じ条件で再実験をするケースがある。
実験をやるごとに異なるp値が得られるはずだが、最終的に有意差ありかどうかをどのように判断すればいいだろうか?

例えば二回実験を行ってp値がそれぞれ0.05, 0.06だったとする。
この時に直感的に考えるとより有意差がある確率が高くなりそうな気はする。
0.05, 0.2だった場合はどうだろう?

上記の書籍によると、フィッシャーのメタアナリシスという方法により以下のように定式化できるらしい。

\chi_{2k}^2=-2\Sigma_{i=1}^k ln (p_i)

kは再実験を行なった回数、$p_i$はi番目の実験におけるp値を表す。
もし帰無仮説が真ならば、この式の右辺は自由度2kのカイ二乗分布に従う。
p値が小さければこの値は大きくなり、有意差があると判断できる。

式のお気持ちを理解する

確率変数の変換

まずは簡単のためkを一回分に固定して考える。
もし帰無仮説が正しければ。p値の分布は一様分布になるはずだ
一様分布であるpを$-2ln(p)$に変換した時を考える。

確率変数の変換は以下の公式を使う。

f(y) = f(\phi(y))|\frac{dx}{dy}| 

xの従う確率分布をf(x)、xを変換したのがy。
最終的に知りたいのはf(y)である。
また、x=(yの式)に直したものを$\phi(y)$とおく。

今$p$を$-2ln(p)$に変換したいので

y = -2ln(x)

とする。
x=の式にして、$\frac{dx}{dy}$を計算すると

\phi(y) = x = exp(-\frac{y}{2})\\
\frac{dx}{dy}=-\frac{1}{2}exp(-\frac{y}{2} )

となる。
f(x)は一様分布(=1)であるため、これらを代入すると

f(y) = 1 |-2exp(-\frac{y}{2})|\\
     = 2exp(-\frac{y}{2})

つまり、一様分布pの対数をとった確率分布は指数関数になる。

カイ二乗分布

一方でk次のカイ二乗分布というのは、k個の標準正規分布に従う変数の2乗和を意味する。
数式の求め方はいったん飛ばすが、k=2の場合のカイ二乗分布は$\frac{1}{2}exp(-\frac{x}{2})$となる。
これはまさに先ほど計算した$-2ln(p)$と同じ形をしている!
これをそのままk個の和に拡張すると$-2\Sigma_{i=1}^k ln (p_i)$は自由度2kのカイ二乗分布に従うことが言える。

まとめ

  • 再実験を行なった場合のp値の扱いはフィッシャーの方法を使えばいい
    • カイ二乗分布からのずれを見れば有意差があるかどうかわかる

余談

このフィッシャーの式って交差エントロピーの形にとても似ている。
交差エントロピーは機械学習の際の損失関数としてよく用いられる。
エントロピーというのは基本的に乱雑で選択肢が多いほど値が大きくなる(エントロピー増大の法則)。
これが小さい方が、より確実に選択肢を絞れている=精度が高いと直感的に理解できる。

選択肢が多い方が一つ一つの状態の取りうる確率は小さくなるのでエントロピーは大きくなる。
今回のケースで言えばp値が小さい場合にフィッシャーの式が大きくなることに関連してそうだが、この考えが正しいのかはわからない。
そもそも今回のケースだとk回の実験は全て独立なのでp値(確率)の和が1になることもない。
なので、このような関連付けをしようとすること自体が間違っているのかもしれない。

参考文献

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?