はじめに
A/Bテストについての書籍で気になる点があったので確認するためのメモです。
以下が気になった点です。
2標本t検定では、類似した分布からなる2つの変数の差を見ているため、正規性の仮定がもっともらしいものであるために必要なサンプルサイズが少なくなる傾向がある。これは、介入群とコントロール群が等しいトラフィック配分を持つ場合は特に当てはまる(Kohavi,DengandLongbotham,etal.2014)。
Ron Kohavi,Diane Tang,Ya Xu,大杉 直也. A/Bテスト実践ガイド 真のデータドリブンへ至る信用できる実験とは (Japanese Edition) (p.316). Kindle 版.
【参考】前回の考察
メモ
RECAP
1000人のうち、1名が商品を購入する時、0.1%の購入率だと表現することができます.
ここで、1000人のそれぞれが同一の確率で購入すると仮定します.
すると、成功確率pのベルヌーイ試行に従う確率変数を1000回抽出した標本平均はざっくりいってpである確率が最も高いということになります.
この抽出作業をp=0.001とした上で、1000回繰り返しヒストグラムにしたのが下図です.
本稿メモ
さて、再度引用文です.
2標本t検定では、類似した分布からなる2つの変数の差を見ているため、正規性の仮定がもっともらしいものであるために必要なサンプルサイズが少なくなる傾向がある。これは、介入群とコントロール群が等しいトラフィック配分を持つ場合は特に当てはまる(Kohavi,DengandLongbotham,etal.2014)。
Ron Kohavi,Diane Tang,Ya Xu,大杉 直也. A/Bテスト実践ガイド 真のデータドリブンへ至る信用できる実験とは (Japanese Edition) (p.316). Kindle 版.
これを実際に自分の目で確認しよう、というのが本稿の趣旨です.
Bingに聞いたところ以下のようなコードを書けば描画できるみたいです.
その描画結果は下段です.
'''
確率pのベルヌーイ試行をそれぞれn回繰り返し
標本平均をとる作業を2回行い
それらの数値の差をとったものの分布を描画するには
PythonのNumPyとMatplotlibライブラリを使うことができます。
以下は、この作業を行うためのコード例です。
'''
import numpy as np
import matplotlib.pyplot as plt
n = 1000 # 試行回数
p = 0.001 # 成功確率
m1 = np.random.binomial(n, p, size=1000) / n # 標本平均1
m2 = np.random.binomial(n, p, size=1000) / n # 標本平均2
plt.hist(m1 - m2, bins=50)
plt.show()
確かに、正規分布に似た形状になっています.
なお、著書内ではt検定のための検定統計量は上述の計算結果をさらに標準偏差で割り、標準化します.
t検定統計量はnが30程度あれば正規分布で代用しても差し障りなかったような記憶があります.
私にとってはt分布, 正規分布いずれなのかそもそも判別がつきませんが、そもそもベルカーブな形状なのか一度見てみましょう.
n = 16で描画してみたいと思います.
n = 16で自由度30になるというあいまいな記憶をもとにしています.
import numpy as np
import matplotlib.pyplot as plt
n = 16 # 試行回数
p = 0.001 # 成功確率
m1 = np.random.binomial(n, p, size=10000) / n # 標本平均1
m2 = np.random.binomial(n, p, size=10000) / n # 標本平均2
plt.hist(m1 - m2, bins=50)
plt.show()
大変素晴らしい形状になりました.
まとめ
- 以下引用については、特に否定することはできませんでした.
- 離散かつ、標本サイズと、取りうる離散値の最小間隔がアンバランスな場合、t分布にせよ正規分布にせよ、二項分布と同様にスパースな(一般的になんと表現するのでしょうか?)形状になることは変わらない.
- 1000人のうち1人が購入するような事例で実務上意味のある差を検出するためには正規性の仮定に必要なサンプルサイズが何なのかにもよるが、それだけでは足りなさそう.
2標本t検定では、類似した分布からなる2つの変数の差を見ているため、正規性の仮定がもっともらしいものであるために必要なサンプルサイズが少なくなる傾向がある。これは、介入群とコントロール群が等しいトラフィック配分を持つ場合は特に当てはまる(Kohavi,DengandLongbotham,etal.2014)。
Ron Kohavi,Diane Tang,Ya Xu,大杉 直也. A/Bテスト実践ガイド 真のデータドリブンへ至る信用できる実験とは (Japanese Edition) (p.316). Kindle 版.