もしあなたが、マーケティング担当者でマーケティングキャンペーンを実施しているとします。そして、キャンペーンが実際にあなたのウェブサイトのトラフィック、サインアップ、課金率などを向上させるために、どのように役立ったのかを知りたいとします。
あるいは、あなたが製品担当者であるとしましょう。そして、特定の機能や製品のリリースが実際にユーザーアクティビティ、製品に費やした平均時間などの改善にどのように影響しているかを知りたいとします。
これは、イベント(例:マーケティングキャンペーン)前とイベント後の測定値を比較したり、A/Bテストのような2つのグループの測定値を比較するだけの簡単なことのように思うかもしれません。しかし、結果に影響する多くの他の要因が存在するため、現実には、そのような単一の要因の影響力を測定することは困難です。
やはり、天下の広告会社であるGoogleも同じ問題を抱えていたようで、ちょっと前になりますが、Kay Brodersenと彼の仲間がそうした要因の分析を簡単にするためのアルゴリズムをCausal Impactという名の下に開発し、オープンソースとして公開しています。
詳しくはこちらのページにありますが、簡単に言うと、ターゲットになるマーケットもしくはセグメントがあったとすると、それと相関関係にある他の複数のマーケットを探してきて、それを元に評価の対象となっているイベント(マーケティング・キャンペーン等)がなかった場合のターゲットのマーケットの期待値を時間軸に沿って予測し、その期待値と実際の値を比べることによって、そのイベントの真のインパクトを効果的に分析できるようにするというアルゴリズムです。
今回は、そのCausal Impactというアルゴリズムを用いて、マーケティングキャンペーンがどれだけ効果があったかを分析してみます。
ツール
今回もプログラミングなしでデータサイエンスができるExploratoryを使います。
データのインポート
今回、あるキャンペーンを日本でだけ行った場合の、あるウェブサイトにおけるユニークページビューの上昇を計測します。そのために、Google Analyticsからデータを取得してきます。
まずは、"データフレーム"という表示の右にある + アイコンから、"クラウドアプリケーションデータをインポート"を選択します。
そこで、Google Analyticsを選択すると、以下のようなダイアログが開きます。
そこで、Google Analyticsアカウントからデータをとってこれるように、"コネクション"の右の"作成"ボタンからコネクションを作成します。これは、自分のGoogleアカウントを選択するだけで簡単にできます。
そして、データを取得する対象のウェブサイトを、View IDから選びます。
次に、必要な分の期間のデータが取れるように、"Last N Days"で、何日前のデータを取ってきたいかを指定します。
そして、今回、日本でのキャンペーンにおける上昇度合いを調べたいので、何日にどの国から、どれだけのユニークページビューがあったかというデータを取得します。そのために、Dimensionsで"Date"と"Country"、Metricsで"Unique Pageviews"を選択し、データの取得を行います。すると、"date"、"country"、"uniquePageviews"という列のデータがプレビューで現れるので、最後に右下の"インポート"ボタンをクリックします。
すると、以下のようなサマリービューが現れます。
このデータは、何日に、どの国から、どれだけのユニークページビューがあったかというデータになります。
これを、日本からのトラフィックに限定するように、データをフィルタしてそのトレンドを可視化すると以下のようになります。
オレンジの点が日本でのマーケティング・キャンペーンを開始した日(2017年5月10日)になります。実際、キャンペーンの直後に、大きく増えているのが確認できますが、その増えた分のどれだけがこのキャンペーンによってもたらされたのか、つまりは実際のインパクトがあったのかは、このチャートだけではわかりかねます。そこで、このCausal Impactのアルゴリズムを使って分析してみましょう。
Causal Impactは、簡単にメニューから呼び出すことが出来ます。uniquePageviewsのカラムメニューから"分析"->"マーケット・インパクト分析を実行"を選択します。
そこで現れるダイアログで、パラメーターを設定していきます。
- 今回、日々のユニークページビュー数が分析対象なので、日付/時間の列は"date"で、集計レベルは"Day"にします。
- 値は、ユニークページビュー数を分析したいので、"uniquePageviews"を選択します。
- そして、"country"列の中にある、"Japan"だけで起こった、キャンペーンという出来事のインパクトを計測したいので、マーケット列は"country"を指定し、ターゲット・マーケットを"Japan"に指定します。
- そのキャンペーンは、2017-05-10に実施したので、イベント時刻は2017-05-10を指定します。
- また、ダイアログの右側にある、Number of Predictor Marketsは、他の幾つのマーケットを用いて、比較対象とするかです。5を指定するということは、日本と似たようなマーケットの動きをしている国5つをもとに、キャンペーンが無かった時の値を予測するということになります。
- 最後に、日によっては、ある国からアクセスが無い場合があり、その場合、データが欠損しているので、そこをどう埋めるのかも決める必要があります。今回のケースは、欠損しているということは値が0だったということになるので、NA Fill Typeは"Specific Value"で、Value to Fill NAは0とします。
以上の設定で実行すると、以下のように、新しい列が作成されていることがわかります。
これらの列の意味を、可視化をしながら説明をしていこうと思います。まずは、Vizタブに移り、タイプを"ライン"、X軸を"time"に設定してオプションを"日に丸める"にします。Y軸は、"actual"を設定します。すると、以下のようなチャートが現れます。
これは、ターゲット・マーケットであるJapanにおける、実際のuniquePageviewsの推移ということになります。
次に、actual_at_event_timeという列をY軸に追加してみます。その際に、そのマーカー設定を"Circle"にするとこのように、イベントのあったタイミングでのactualの値がハイライトされます。
そして、こんどは、"expect"列を追加します。その際に、同時に"Range"をチェックすると、"expect_low"と"expect_high"も可視化されます。
この緑の線が、"expect"列に入っている値で、イベントが無かったであろう場合に予測される値です。この、緑の範囲の上限、下限がそれぞれ、"expect_high"と"event_low"で、それ以上、それ以下になることは、ほとんどの場合無いだろうという予測値が入っています。こうしてみると、キャンペーンがあった後の大きなピークは、キャンペーンが無かった場合に想定される値より、かなり大きいということがわかります。
さらに、"impact"列を追加すると、以下のように、赤い線が現れます。
これは、イベントのインパクトの大きさ、つまり、actualとexpectedの値の差ということになります。
そして、最後にcumulative_impactを選択します。これは、impactの累積値、すなわち、そのキャンペーンの累積としてのインパクトの大きさになります。これによって、そのキャンペーンがユニークページビューの上昇に、これまででどれだけ貢献したのかがわかります。
こうして見ることによって、今回のマーケティング・キャンペーンによって、おおよそ3500~4300のユニークページビューの増加を得たということが、統計的に確認できました。
まとめ
最初にも述べたように、こうした、マーケティング・キャンペーンであったり、製品のリリース、何かビジネス上の対策や処方などのイベントを行った後の実際のインパクトを理解するというのは大変難しいだけに、業種によっても様々なやり方があると思われます。しかし、統計学者でもデータサイエンティストでもない、しかし自分の担当する業務のプロであるあなたが、こうしてCausal Impactのようなアルゴリズムを使うことですばやくこのような洞察を得ることができることで、実際のビジネスにインパクトのある対策につながる分析になるのでなないでしょうか。そして、これこそが昨今のオープンソースのAI並びに機械学習のアルゴリズムの力なのです。
データ分析をさらに学んでみたいという方へ
今月6月に、シリコンバレーのExploratory社によって行われるデータサイエンス・ブートキャンプが東京で行われます。本格的に上記のようなデータサイエンスの手法をプログラミングなしで学んでみたい方、そういった手法を日々のビジネスに活かしてみたい方はぜひこの機会に、参加を検討してみてはいかがでしょうか。こちらに詳しい情報がありますのでぜひご覧ください。