AMBL株式会社の鈴木です。この記事はAMBL株式会社 Advent Calendar 2022の18日目の記事です。
今回は『Google Analyticsのデータを使って次回購入予測をする機械学習の論文』を読みました。こちらの論文はECサイトにおいてユーザーのセッションから 次の行動を予測する学習アルゴリズムの構築を目的として書かれています。
この記事では当論文の前半部分に GAと機械学習における近年の研究 が多数掲載されていたので、まとめて要約しました。
当論文は2019年5月に発表されておりGA4の正式版リリースより前1ではありますが、現在の機械学習を用いた予測に関する内容やその課題、またそれに関連する論文についても言及されています。
※なお、参考論文についているリンクは私が検索して見つけたものです。
当論文について
論文:Predicting next shopping stage using Google Analytics data for E-commerce applications
著者:Mihai Cristian Pîrvu, Alexandra Anghel
(Alogliaの機械学習エンジニアたちによる執筆だと思います)
公開日:2019年5月30日
要約
Introduction
- 対象とするECサイトはアイテムページ、カートページ、チェックアウトページなどを保持するとする
- 目的
- 最適化されたパーソナライゼーションによるユーザー別の購入率の予測
- 現在の課題
- パーソナライゼーションの差別化が画一的なアプローチである
- GAでは現在のユーザーの購入率のみ見ることができるが 見込み客の購入 について予測ができないため広告や割引の予算計画などを適切に立てることができず利益を失っている可能性があるので予測したいよね2
現状の分析手法について
パーソナライゼーションに関する現状
- データのみから学習する方法
- 線形回帰、SVM、ニューラルネットワークなどの回帰や分類モデルを使用する
- 強化学習をする方法
- クリックの最大化や利益の最大化、解約の最小化などを目標とする
レコメンドシステムに関する現状
- 教師あり学習を用いた協調フィルタリングやコンテンツベースフィルタリングが主流
- Matrix Factorization(MF)は協調フィルタリングの代表例ですが、新規ユーザーのデータが少ないことで起こる コールドスタート問題 がある
MFに関する参考論文:Yehuda Koren, Robert Bell, and Chris Volinsky. Matrix factorization techniques for recommender systems. Computer, (8):30–37, 2009. - コールドスタート問題は過去のデータを活用できるリカレントニューラルネットワークを使うことで一部解消される
参考論文:Yong Kiam Tan, Xinxing Xu, and Yong Liu. Improved recurrent neural networks for session-based recommendations. In Proceedings of the 1st Workshop on Deep Learning for Recommender Systems, pages 17–22. ACM, 2016.
- Matrix Factorization(MF)は協調フィルタリングの代表例ですが、新規ユーザーのデータが少ないことで起こる コールドスタート問題 がある
セッション内の意図予測に関する現状
- リカレントニューラルネットワークを用いてセッション中に購入するかどうか予測する手法がある
- 他の方法を使うにはファネルに対応してユーザーの意図を分類する必要がある
当研究では自動化のあとにクエリに注釈をつける半教師アプローチを用いることでより良いモデルを構築した。
他のユースケースとそれぞれの参考論文
- さまざまな観光サイトのラフィックに基づいて、都市を訪れる人の数を予測する
参考論文:Ulrich Gunter and Irem Önder. Forecasting city arrivals with google analytics. Annals of Tourism Research, 61:199–212, 2016. - ある時間枠における場所と使用デバイスの変遷を調べることでWebサイトのユーザー属性を特定する
参考論文:David Durden. Identifying user demographics in digital collections with google analytics. 2016. - オンラインライブラリの最も訪問されたページを分類するためにサイトのトラフィックを分析する
参考論文:Amy Vecchione, Deana Brown, Elizabeth Allen, and Amanda Baschnagel. Tracking user behavior with google analytics events on an academic library web site. Journal of web librarianship, 10(3):161–175, 2016. - Google Analyticsが提供する機能の計算された統計を使用して、様々なeコマースサイトのパフォーマンスを分析する
参考論文:Beatriz Plaza. Google analytics for measuring website performance. Tourism Management, 32(3):477–481, 2011.
おわりに
当論文はGA4に機械学習がのる前に発表された内容ではありますが、自らでモデルを構築したい方は読んでみたら面白いのではないかなと思います。Google Analytics Reporting API v4を使っていますがGoogle Analytics 360や BigQuery でも同じ手法を活用可能だそうです。(参考論文についてはこの限りではないので各々ご確認ください)
それでは、よいGAライフを!