BigQueryでGAデータを集計していると、新規ユーザー数が
管理画面とずれることがあったが、その原因がわかったので共有
日付でグループ化して集計しないと新規ユーザー数が管理画面とずれる
GAのセッションが切れるタイミングとして
GAウェブ版の公式ページを見てみると、以下の3種類
- 操作が行われない状態で30分経過後
- 午前 0 時
- キャンペーンの切り替わり時
上記の通りであれば、以下の2つのクエリの結果が同一になるはずだが
前者のほうが少なく、後者が管理画面と一致した
#standardSQL
SELECT
COUNT(DISTINCT fullVisitorId) AS users
FROM
`${project}.${dataset}.${table}`
WHERE
_TABLE_SUFFIX BETWEEN "20170725" AND "20170726"
AND totals.newVisits > 0
;
#standardSQL
SELECT
SUM(users)
FROM
(
SELECT
date
, COUNT(DISTINCT fullVisitorId) AS users
FROM
`${project}.${dataset}.${table}`
WHERE
_TABLE_SUFFIX BETWEEN "20170725" AND "20170726"
AND totals.newVisits > 0
GROUP BY
date
)
;
公式の定義どおりであれば、新規セッションは日付をまたいだ瞬間に
新規セッションではなくなるが、日付でグループ化して集計すると
多くなるところをみると、日またぎのセッションが存在する様子
後者がGAの管理画面と一致したので、
GAの新規セッションの一部はアプリ版においては重複のものを含んでいる
たぶんアプリ版だけ?
実はアプリ版GAのセッションに関しての記載は以下
日付に関しては何も書かれていない
なので日付をまたいだセッションが普通に存在できるはず
BigQueryと連携しているプロパティがアプリ版しかないので
手元でウェブ版の検証が出来ないけれど、多分重複はしないはず。。
それならそれでアプリ版GAの管理画面の集計ちゃんとしてほしい