新しいマーケティング施策の採用を検討するときなどに、2つのパターン(例AとB)を作成し、どちらがより良いのかを試して、最終的にどちらの案を採用するかを決めることはよくやることです。
こういった意思決定の際には「A/Bテスト」が有効なのですが、A/Bテストを実施せずに、異なるタイミングで各々のパターンを検証していたり、検証に参加しているメンバーの性質が異なっていたり、あるいは検証可能な仮説が設定されていないことで、適切に2つパターンを比べることができずに、誤った評価のもとで意思決定をしてしまうことも少なくありません。
そこで、データを駆使して2億超の顧客を獲得したNetflixから、A/Bテストの基本、押さえるべき3つのポイントをまとめた記事が出ていましたので、こちらに要訳として紹介します。
- What is an A/B Test? - リンク
A/Bテストとは何なのか
A/B テストとは、ある事象の効果を調べるために、それ以外の他の条件を揃える「対照実験」の1つです。
例えば、上下逆さまのボックスアート(訳者注: 映画のタイトルやイメージをボックス形式で表示させたもの)が顧客に良い効果を与えるかを知りたかったとします。
仮に逆さまのボックスアートのサービス体験が、顧客にとってより良いものだった場合、それはどのように判断できるのでしょうか。そういったことを判断したいきには、顧客の一部をランダムに抽出して、そのサンプルを2つのグループに均等に分けてテストするのです。
このとき片方のグループ「A」は、これまでと変わらないサービスを体験します。なおA/Bテストの世界では、これまでと同じサービスを体験する集団のことを一般的に「コントロール(非介入)」グループと呼びます。
また、もう片方のグループ「B」は、「トリートメント(治療、介入)グループ」と呼ばれ、特定の仮説に基づく、これまでとは異なるサービス(例: 逆さまのボックスアート)体験を送ることになります。
そして、テストを始めてから一定時間が経過したタイミングで、立てた仮説に関わるグループAとBの様々な指標を比較します。例えば、より関連性の高い計算体験を提供することを目的としたテストでは、顧客が見るべきコンテンツを見つけられているかを測定する必要があり、変更した体験に関わる指標に注目する必要があります。
このとき、得られた指標が何を表しているのかを注意深く考えることが非常に重要です。
例えば、今回の実験ではグループごとにクリック率(タイトルをクリックした顧客の割合)を確認することになるかもしれませんが、この指標だけで新しい体験が成功した場合、誤った解釈につながるかもしれません。
なぜなら、逆さまのボックスアートを見た顧客は、(単にわかりづらかったため)わかりやすい情報を求めて、クリックをしただけかもしれないからです。
そのため、今回はクリック率だけでなく、どの程度の割合の顧客が、各作品ページから視聴に至ったかで評価をした方が適切と言えるわけです。
さらに、2つのグループの指標にどれぐらいの差があるときに、意味のある違いがあると言えるのかや、そういったことを言うために何人のメンバーが必要なのか、といったことも考慮する必要があります。(訳者注: 詳細はあとがきで補足します)
1. 2つのグループを均質にする
「コントロール(非介入)」グループである「A」と、トリートメント(治療、介入)」グループである「B」を「ランダム」に作成することで、テストに影響すると思われるすべての要素において、2つのグループが同じようにバランスが取れます。
より具体的に言うと、ランダムにグループを割り振ることで、例えば2つグループにおける平均的な顧客期間・コンテンツの嗜好・主要言語などの均質性を担保できるのです。
このようにグループの間の均質性を担保できれば、残っている唯一の違いはテストしている新しい体験のみになり、新しい経験による評価に偏りが生じずに済むわけです。
このことが、どれほど重要かを理解するために、意思決定を下す際に、取られがちな別のアプローチを考えてみます。
2. 前後比較でテストを行わない
例えば、逆さまのボックス アート体験をすべての顧客に展開し、指標の1つに大きな変化があるかどうかに注目したとします。
ある月の16日目に逆さまの体験を有効にしたとして、次のようなデータが集まったら、あなたはどう判断するでしょうか。
新しい逆さまの体系に切り替えてから、Y軸のメンバーのエンゲージメントのスコアが上昇していることから、このテストは非常にうまくいっているように見えます。
しかしこの新しい体験が顧客のエンゲージメントを高めたと本当に言えるのでしょうか。
もし、逆さま体験の展開と同じ日に、「ストレンジャー・シングス」などのヒットタイトルの新シーズンや、「アーミー・オブ・ザ・デッド」のようなヒット映画をリリースしていた場合どうなるでしょうか。
新しい逆さま体験によって、エンゲージメントが向上していると考えることもできますし、話題のヒットタイトルによるもの、あるいはその両方によってエンゲージメントが向上していると考えることができてしまいます。
重要な点は、このようなやり方では「新しいサービス体験」がエンゲージメントの増加につながったかどうかはわからないということです。
では、顧客の一部をランダムに抽出して、そのサンプルを2つのグループに均等に分けて、そのうちの1つのグループ(A)が変わらないサービス体験を送り、もう1つのグループ(B)が逆さまのサービス体験を送るA/B テストを実行し、以下のようなデータを集めたらどのようなことが言えるでしょうか。
この場合、先程とは異なり、(当然のことですが)逆さまのサービス体験ではエンゲージメントが低くなり、どちらのグループも、ビッグタイトルのリリースと同時にエンゲージメントが増加している、という結論を導き出せます。
このように、A/B テストを使用すると、因果関係を示すことができます。
繰り返しになりますが、逆さまの体験はグループBにのみに適用されており、顧客はグループ AとBにランダムに割り振られているため、他のすべての条件は 2 つのグループ間で一定に保たれていると想定できます。
そのため、高い確率で、逆さまのサービス体験がエンゲージメントの低下を引き起こしたと結論付けることができるわけです。
今回の例は極端ですが、重要なポイントは、私たちにはコントロールできないことが常に存在する、ということです。
そのため、新しい体験を全ての顧客に展開し、単に変更前後で指標を測定した場合、その前後に関連する別の差異が発生し、因果関係の結論を下すことができない、あるいは誤った結論を下す可能性が生じるわけです。
そのためA/B テストを実行することで、因果関係を実証して自信を持ってサービスの改善に対して意思決定が可能になるわけです。
3. アイディアを検証可能な仮説に変換する
全てのA/B テストはアイディアをから始まります。
私たちがテストするアイディアの中には、作品のコピーを改善に関するような地道なものあれば、実際に採用されている「トップ 10」リストにつながったような、よりインパクトの大きいテストもあります。
この「トップ 10」のリスト も、最初はただのアイデアから始まり、検証可能な仮説に変わり、A/Bテストを経て世界中の顧客に展開されることになったのです。
「トップ 10」のリストにおいて、我々は各国で人気のあるタイトルを表示させることで、2 つの点でメンバーに利益をもたらす、という仮説を持っていました。
1つ目の仮説は、人気のコンテンツを表示することで、顧客が他人と人気のタイトルについてコミュニケーションを取りつながれるようになる、というものでした。
2つ目の仮説は、話題のトピックに関する会話に参加したい、という顧客の欲求を満たすことで、価値のあるコンテンツを選ぶ手助けができる、というものです。
アイディアに対する仮説を言語化したら、次は「Xを変更すると、指標 Y が改善され、顧客のサービス体験が改善されます」といった形で、このアイデアを「検証可能な仮説」に変換します。
トップ 10 の例では以下のような検証可能な仮説にアイディアを変換しました。
「顧客にトップ 10のリストを見せることで、見るべきものを見つけやすくなり、メンバーの喜びと満足度が高まる。」
このテスト (および他の多くのテスト) における主要な指標はエンゲージメントです。ただし、トップ 10のリストに表示されるタイトル単位の視聴率に加え、トップ10のリスト以外からの視聴率などの指標も考慮するべきです。
トップ 10 のリスト体験がNetflixの顧客にとって本当に良いもので、仮説が正しければ、トリートメントグループではトップ 10のリストに含まれるタイトルの視聴数の増加が期待されるわけです。
以上、要約終わり。
あとがき
今回は、ビジネスの改善のための意思決定の際によく利用されるA/Bテストの基本、重要な理由、押さえるべき3つのポイントを紹介しました。
この記事を通してA/Bテストの基本的な考え方を押さえることができましたが、実際にA/Bテストの結果を評価するときには、2つのグループの指標にどの程度の差があるときに、意味のある違いがあると言えるのかや、一定の効果を検出するためには何人のメンバーがテストに参加する必要があるのか、を考慮することが必要です。
そこで手元のデータに対して、「仮説検定」や「ベイジアンA/Bテスト」と呼ばれる統計の手法を使うことで、それらのことを考えていくことが可能となるため、Netflixも日々それらの手法を駆使して、ビジネスの意思決定を行い、ビジネスを改善させていると言えそうです。
マーケティング・アナリティクス・トレーニング
前述した「仮説検定」や「ベイジアンA/Bテスト」を、いざ自分達のデータを使ってやろうとすると、プログラミングのスキルが求められてしまい、結局できずじまいになってしまうことも少なくありません。
そこで、今回の記事で紹介したA/Bテストの評価だけでなく、効果的なマーケティング活動を行うために必要なデータ分析手法を、プログラミングすることなしに学んでいただけるトレーニングを12月に開催します。
トレーニングでは、A/Bテストだけでなく、相関、多変量解析、クラスタリング、マーケット・バスケット分析、コレスポンデンス分析、などマーケティング活動において欠かせない分析手法を、学んでいただけます。
データドリブンなマーケティング活動を行うために必要なデータサイエンスの手法を短期間で習得したい方は、ぜひこの機会に参加をご検討ください!
自分のデータで試してみたい!
今回の記事で紹介したA/Bテストの評価は、データの加工、可視化、分析、レポーティングのためのUIツールのExploratoryを利用して実施が可能です。
ご自身のデータを使って、A/Bテストの結果を評価したい方は、下記のリンクより無料トライアルが可能ですので、是非、お試しください!