More than 3 years have passed since last update.

BigQuery上でABテスト結果の検定（母比率の差の検定）を行なう

Last updated at 2021-02-06Posted at 2021-02-06

概要とモチベーション

ユーザーを2つ以上の群に分け、それぞれの群に施策を行なって反応の違いを見るABテストでは、得られた結果を統計検定にかけて、それぞれの群の反応が統計的に有意に異なっていたかを確かめる事が重要です。

引用：UnityAnalyticsABTestingの統計検定結果画面( significant=yes なら統計的有意差有り)

https://docs.unity3d.com/ja/2020.1/Manual/UnityAnalyticsABTesting.html

ABテストのうち、コンバージョンしたかしていないかをテストの対象とする場合、以下のような表に対して「母比率の差の検定」を実施することになります。

	CVした	CVしてない
control群(統制群)	300	2000
treatment群(介入群)1	380	2200
treatment群(介入群)2	450	1800

↑のような表をBigQueryで出した後、これまでは母比率の差の検定ができるツール上に数値を入力して有意差があるかどうかを検証していましたが、BigQuery内で検定させることができると便利なので実際にやってみます。

ユーザー定義関数(UDF)の実装

BigQueryでは任意のJavascript関数をUDFとして定義できます。

https://cloud.google.com/bigquery/docs/reference/standard-sql/user-defined-functions
- もうUDF機能のGAリリースから1年以上経ったんですね…

母比率の差の検定を行なうJavascript実装は世の中にいくつか存在するので、今回は https://github.com/thumbtack/abba を使って、母比率の差の検定を行なうBigQuery UDFを実装しようと思います。

UDFのドキュメントに従い、必要なjsライブラリをGCS bucketに置いた上で、以下のようにUDFを定義します。

CREATE OR REPLACE FUNCTION `util.abba_test`(
  baseSuccess FLOAT64,
  baseTotal FLOAT64,
  variationSuccess FLOAT64,
  variationTotal FLOAT64,
  numOfGroups FLOAT64
) 
RETURNS STRUCT<
  pValue FLOAT64, 
  proportion FLOAT64,
  lowerBound FLOAT64,
  upperBound FLOAT64,
  relativeLowerBound FLOAT64,
  relativeUpperBound FLOAT64
  >
DETERMINISTIC
LANGUAGE js
OPTIONS (
  library=[
    "gs://udf-bucket/path/to/jstat.min.js",
    "gs://udf-bucket/path/to/stats.js"
  ])
AS """
  const ALPHA = 0.05  // 有意水準は5%とする
  const experiment = new Abba.Experiment(numOfGroups-1, baseSuccess, baseTotal, ALPHA, jStat)
  const result = experiment.getResults(variationSuccess, variationTotal)
  
  return {
    "pValue": result.pValue,
    "proportion": result.proportion.value,
    "lowerBound": result.proportion.lowerBound,
    "upperBound": result.proportion.upperBound,
    "relativeLowerBound": result.relativeImprovement.lowerBound,
    "relativeUpperBound": result.relativeImprovement.upperBound,
  }
"""

引数と返り値は以下のとおりです。


# 引数:
  - baseSuccess: 基準となる母集団の成功人数
  - baseTotal: 基準となる母集団の人数
  - variationSuccess: 比較する母集団の成功人数
  - variationTotal: 比較する母集団の人数
  - numOfGroups: 母集団の数。2集団の比較のときは2 （Bonferroni調整に使用する）
# 返り値:
  - 以下の要素を含んだ構造体
    - pValue: p値
    - proportion: 母集団から推定される成功者の割合
    - lowerBound: 母集団から推定される成功者の割合の、信頼区間の下限
    - upperBound: 母集団から推定される成功者の割合の、信頼区間の上限
    - relativeLowerBound: 基準となる母集団からの、比較する母集団の改善率の下限
    - relativeUpperBound: 基準となる母集団からの、比較する母集団の改善率の上限

スクリーンショット：

UDFの利用

冒頭で示したABCテスト結果に対して検定を行なうには、以下のようなクエリを叩きます。

WITH data AS (
SELECT 'control' _label, 300 success, 2000 total
UNION ALL
SELECT 'treatment1' _label, 380 success, 2200 total
UNION ALL
SELECT 'treatment2' _label, 450 success, 1800 total
)

SELECT 
  _label, 
  success, 
  total,
  util.abba_test(
    first_value(success) over (order by _label = 'control' desc), -- control群のCV数
    first_value(total) over (order by _label = 'control' desc),  -- control群の人数
    success,
    total,
    count(1) over() -- 群の数（今回はABCテストなので3）
  ).*,
FROM data
GROUP BY 1,2,3
ORDER BY 1

↓小数が見づらいのでフォーマット

_label	success	total	pValue	proportion	lowerBound	upperBound	relativeLowerBound	relativeUpperBound
control	300	2000	1.000	0.150	0.133	0.169	-0.168	0.168
treatment1	380	2200	0.083	0.173	0.155	0.192	-0.019	0.318
treatment2	450	1800	0.000	0.250	0.228	0.274	0.469	0.854

このABCテストにおいては、

control群のCV率は15.0%(95%信頼区間13.3%〜16.9％)
treatment1群のCV率は17.3%(95%信頼区間は15.5%〜19.2%)で、control群と比べて有意差がなく(p値=0.083>0.05)、改善率は-1.9%〜+31.8%
treatment2群のCV率は25.0%(95%信頼区間は22.8%〜27.4%)で、control群と比べて有意差が有り(p値<0.0001)、改善率は+46.9%〜+85.4%

と言ったことが検定からわかりました。

まとめ

UDF上でABテストでの検定（母比率の差の検定）を実装することで、これまで人力でツールにコピペして実施していたABテストの統計検定をBigQueryのみで実施することができるようになりました。
Lookerダッシュボード等各種BIツールと組み合わせると、人力で計算する部分のない強力なダッシュボードができそうです。

備考

統計検定手法の詳細について

https://github.com/thumbtack/abba では母比率の差の検定の内部で使う信頼区間に"Agresti-Coull信頼区間"を採用し、多群ABテスト（すなわちABCテスト）時には"Bonferroni調整"によって有意水準の調整を行なっています。

詳細を知りたい方は、以下の参考文献を参照してください。 私もあんまり細かい部分までちゃんと説明できる自信ないです

母比率の差の検定について： https://bellcurve.jp/statistics/course/18227.html
ABBAが元にしている統計検定手法について
- http://thumbtack.github.io/abba/demo/abba.html
Agresti-Coull信頼区間(もしくは調整Wald法)について
- https://en.wikipedia.org/wiki/Binomial_proportion_confidence_interval#Agresti%E2%80%93Coull_interval
- https://towardsdatascience.com/five-confidence-intervals-for-proportions-that-you-should-know-about-7ff5484c024f#a837
- Agresti-Coull信頼区間の元となっているwilson score信頼区間について: https://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A3%E3%83%AB%E3%82%BD%E3%83%B3%E3%81%AE%E4%BF%A1%E9%A0%BC%E5%8C%BA%E9%96%93
Bonferroni調整(多群ABテスト(ABC...テスト)手法)について
- https://www.med.osaka-u.ac.jp/pub/kid/clinicaljournalclub1.html
- 要するに、比較したい母集団の数Nに対して、有意水準αを α/N に変更するというもの。

ライセンス表記

abba

Copyright (c) 2014 Thumbtack
BSD 3-Clause "New" or "Revised" License

jStat

Copyright (c) 2013 jStat
MIT License

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up