読者ターゲット
- A/B テストの存在は知っている
- 効果検証が大事だと思っている
- スプレッドシートで検定したい
これは何か
こんにちは。プロダクトマネージャーの門脇です。
みなさんは、
「施策Aと施策B、どちらが効果あるんだろう?」
と悩んだことはありませんか?例えば、
- 営業や採用のDMの文章はどっちのパターンが効果あるんだろう
- 広告はどっちのクリエイティブが効果あったんだろう
みたいな悩みです。いわゆる「A/Bテスト」という手法が利用されるやつです。
世間には、RやPythonを利用した検証手法が溢れていますし、私自身どちらも利用したことがあります。
が、今回は、スプレッドシート上で検定まで行ってみたいなと思い、やってみました。
今回のケース
- 以下のようにスプレッドシート上にまとめられたデータ
- 2つの手法が試され、それぞれのサンプルがコンバージョン(CV)あり、なし、のステータスを持つ
0. 検定とは
ざっくりいうと、「収集されたデータの差は偶然なのか、必然なのか?」を決めるための手法です
例えば、AとB、2つのパターンで作られたウェブサイトがあるとします
A に来た人2人のうち、1人が申し込み
B に来た人1人のうち、0人が申し込み
という状態だったとき、
「今後はAという方法でやればうまくいく!!Bを辞めて、Aだけやっていこう!!!」
としていいのでしょうか。
A に来た人100人のうち、80人が申し込み
B に来た人100人のうち、0人が申し込み
今度はどうでしょうか?なんかAのほうが良さそうですよね。
Bは辞めたほうが良さそうです。
では
A:100人のうち、20人が申し込み
B:100人のうち、13人が申し込み
の場合はどうでしょう...?
よくわからないですよね。。。
でも実際仕事していると、こんなことばかりではないでしょうか?
お察しの通り、検定を用いれば「観測されたデータの差が偶然なのか?」決めることができます。
1. 検定手法を決めよう
目的やデータの状態によって、取るべき手法が異なります
検定手法については非常にたくさんの方が解説してくださっています
(出典:フローチャート )
今回は
- 「申し込んだ」「申し込まなかった」の割合の差が重要
- 対応なし(※)
なので、
「フィッシャー正確確率検定」
を採用します。(「カイ二乗検定」ではない理由は... コクラン・ルール)
2. 「正確確率検定」をやっていく
こちらに従って、
- 観測表を作る
- 計算式に当てはめてPを求める
- Pが0.05(有意水準)以下になるか見る
という流れで進めます。例えば、先の例であれば
CVあり | CVなし | TOTAL | |
---|---|---|---|
A | 20 | 80 | 100 |
B | 13 | 87 | 100 |
TOTAL | 33 | 167 | 200 |
と表が作れるので、これに従ってPを求めます
スプレッドシートでやるには少し工夫が必要
最後の難関です。
スプレッドシートだと、途中の計算結果が大きくなりすぎてしまうと、エラーが起きます。
階乗の計算はFact()関数で出来ますが、残念ながらFact(170)までしか対応していません。
また、単にN=170以上のデータが扱えないというだけでなく、例えばfact(100)xfact(100)も数字がでかすぎるのでエラーになります。
これに対応するための計算の工夫はいくつかありますが、単にこちらのサイトなどを利用するのがいい気がします
これによってP値を導き出し、これが<0.05であれば、「差がある」と言えることになります。
ちなみに私の場合、「差がない」という結果になったので、AもBも、もう少し継続して検証する、という意思決定になりました。もう少しして差がでなければ、もっと差が生まれそうな、大胆なことをやっていくだけです。
最後に
最も貴重な資源は時間であり、時間を最も有効に使うための手段は、仮説と検証だと考えています。
運や直感は大切ですが、それだけでは再現性がありません。
再現性とは成功確率そのものです。仮説検証に数時間の手間を取るだけで成功確率を上げ、自分やチームの失敗と疲弊を防げるのであれば、これを利用しない手はないかと思います。
参考
【まとめ】統計解析。何からはじめて何をどうすればいい?レベル・目的に合わせて紹介
統計学の基準値の由来:5%有意水準,カイ二乗検定,相関係数の出典と引用
フィッシャーの正確確率検定
両側検定と片側検定
Google Apps Scriptでスプレッドシートのカスタム関数を作る方法