概要
GA4ではBigQueryへのエクスポート時間が一定ではなく、最近ではエクスポート先のテーブルを参照するスケジュールクエリが失敗するケースも増えてきています。
そこでこの記事では複数プロパティでエクスポートの時間を比較し、挙動の違いを考察してみます。
今回利用するSQL
以下のSQLを使用してデータを抽出しました:
WITH
raw_data AS (
SELECT
PARSE_DATE("%Y%m%d", REGEXP_EXTRACT(table_id, r"events_([0-9]+)")) AS date,
DATETIME(TIMESTAMP_MILLIS(creation_time), 'Asia/Tokyo') AS creation_time,
FROM
`projectName.analytics_xxxxx.__TABLES__`
WHERE
table_id LIKE 'events_%'
AND table_id NOT LIKE 'events_intraday_%' )
SELECT
*,
DATETIME_DIFF(creation_time, date, HOUR) - 24 AS hour
FROM
raw_data
WHERE
date >= "2024-01-01"
このクエリ結果を用いて、日付ごとの「エクスポート時間の推移」を確認します。
GA4プロパティA(無償版)
- 2024年5月21日以降
- 数値が3時間後ろ倒し
- 最小は8時台、最大は20時台
GA4プロパティB(無償版)
- 最大で43時台
- 2024年5月21日以降
- 数値が3時間後ろ倒し
- 最小は24時台、最大は33時台
GA4プロパティC(無償版)
- 最大で42時台
- 2024年5月21日以降
- 数値が3時間後ろ倒し
- 最小は24時台、最大は33時台
GA4プロパティD(360)
- 2024年5月21日以降
- 数値が3時間後ろ倒し
- 最小は8時台、最大は15時台
GA4プロパティE(360)
- 2024年5月21日以降
- 数値が3時間後ろ倒し
- 最小は8時台、最大は15時台
GA4プロパティF(360)
- 2024年5月21日以降
- 数値が3時間後ろ倒し
- 最小は8時台、最大は16時台
考察
エクスポート時間を整理すると以下のようになります。(2024年5月21日以降)
プロパティ | 種別 | 最小 | 最大 | 備考 |
---|---|---|---|---|
A | 無償 | 8時台 | 20時台 | |
B | 無償 | 24時台 | 34時台 | ほぼ利用していないデータセット |
C | 無償 | 24時台 | 33時台 | ほぼ利用していないデータセット |
D | 360 | 8時台 | 15時台 | |
E | 360 | 8時台 | 15時台 | |
F | 360 | 8時台 | 16時台 |
2024年5月21日以降、遅延幅が増加
この日以降、エクスポート時間が3時間遅くなっており、午前中のデータを期待してスケジュールクエリを組む場合、処理の失敗が増加する可能性があります。
無償版では最大34時間かかることがある
無償版ではデータセットの利用頻度やエクスポート量によって、処理の優先度が下がり、遅延が大きくなるのかもしれません。
何時台を想定すべきか
360プロパティの場合、16時台までにエクスポートされる可能性が高いですが、無償版ではエクスポートが1日以上かかる場合もあるため、BQテーブルの利用は難しいかもしれません。
前日分の速報値が必要な場合
360プロパティでも最大で16時間近くかかるため、前日のデータを速報値として利用するにはストリーミングテーブルの使用が推奨されます。
まとめ
2024年5月21日以降、すべてのプロパティでエクスポート時間が3時間遅れることが確認され、特に無償版では最大で34時間の遅延が発生することがありました。
リアルタイムや前日分のデータを迅速に活用するには、ストリーミングテーブルの利用が必要となりそうです。
追記
GA4の「データの更新頻度」のヘルプに「前日のデータ処理のタイムライン」の項目が追加されているようです。