本記事はBigQuery Advent Calendar 2023の20日目の記事になります。
本記事では一部プレビュー版の機能を利用しているため、動作は2023年12月19日現在のものとなります。今後挙動が変わる可能性があります。ご了承ください。
はじめに
弊社では利用している外部SaaSの機能としてBigquery連携のコネクタをいろいろ利用しています。その場合、稀に起こる問題として特定のリージョンのみ連携を行うことができるサービスが存在します。このような場合、弊社ではデータ取得用のプロジェクト(Project A)からサービスへの連携プロジェクト(Project B)にデータを送り、外部SaaSへのデータ連携を行っています。このプロジェクト間でのデータ連携方法として、BQ Datatransfer Serviceを利用しています。
最近では新しくcross-region dataset replicationが利用可能となり、これによりリージョンを超えたデータセットの利用が可能になりました。この機能を見ていて上記のようなプロジェクトとリージョンを跨いだ場合にも利用できるのでは?と考え、Analytics Hubと組み合わせてDatatransfer Service以外の方法でProject AからProject Bへリージョンを跨いでデータの転送ができないか検証を行います。この方法で連携できるならProject Aのデータが更新されたらほぼリアルタイムにProject B側のデータも更新されてデータ転送の必要が無くお得です。
Analytics Hubに関しては同じAdvent Calendarに参加されている方が記事を書いていらっしゃるので、詳細はそちらをご参照ください。
やること
手順は以下のように行います。
- Project A内でUSマルチリージョンのレプリカを作成
- Project AのデータセットをAnalytics HubでProject Bに共有
- Project B内でUSマルチリージョンのレプリカを作成
- Project BのデータセットのPrimaryとSecondaryを入れ替え
最終的にUSマルチリージョンのデータと left join
をして問題なく動作するかを確認して終了とします。
前準備
前準備としてデータセット、テーブル、Analytics Hubのエクスチェンジとリスティングを作成します。
作成したテーブル、データセットは結果以下のような構成になります。
project | dataset | table | region | 備考 |
---|---|---|---|---|
Project A | test_analytics_hub | share_test_table | asia-northeast1 | Project Aに作成したデータ |
Project B | test_analytics_hub_us_data | us_region_valid | US | 結合検証用データ |
作成したデータは以下のクエリから作成しています。
-- Project Aのデータ
CREATE OR REPLACE TABLE test_analytics_hub.share_test_table AS
SELECT *
FROM UNNEST(
ARRAY<STRUCT<user_id STRING, price INT64>>[
('1', 500), ('2', 1200), ('3', 900)
]);
-- Project Bの検証用データ
CREATE OR REPLACE TABLE test_analytics_hub_us_data.us_region_valid AS
SELECT *
FROM UNNEST(
ARRAY<STRUCT<user_id STRING, name STRING>>[
('1', 'aaaa'), ('2', 'bbbb'), ('3', 'cccc'), ('4', 'dddd')
]);
Project Aのリスティングデータセット名は share_test_dataset
にしました。作成時の注意点として、Analytics Hubのエクスチェンジは共有したいデータセットのリージョンと同一である必要があります。
1. Project A内でUSマルチリージョンのレプリカを作成
前準備で作成した test_analytics_hub
のsecondaryとしてUSマルチリージョンのレプリカを作成します。cross-region datasetの設定はすべてクエリで行います。
ALTER SCHEMA test_analytics_hub
ADD REPLICA `us`
OPTIONS(location='us');
この操作によって、
- primary: asia-northeast1
- secondary: US
の両方にデータが作成されます。
2. Project AのデータセットをAnalytics HubでProject Bに共有
作成したリスティングをProject Bへ追加します。上記リスティング画面から データセットをプロジェクトに追加
で追加を行います。
下記のようなデータセットができていれば完了です。当然データのリージョンも asia-northeast1
のままです。
試しにリージョンが異なるデータで結合を行いますが、エラーになることが確認できます。
3. Project B内でUSマルチリージョンのレプリカを作成
2.で作成したデータセットに対してもレプリカを作成。クエリは1.とデータセット名が違うだけで他は同一です。
ALTER SCHEMA share_test_dataset
ADD REPLICA `us`
OPTIONS(location='us');
ここまで行うと、Project Aにはasia-northeast1とUSの両方にデータを保持しており、Project Bにはasia-northeast1とUSの両方を参照できる状態になっています。
4. Project BのデータセットのPrimaryとSecondaryを入れ替え
Project Bの共有データセットのUSリージョンをprimaryにします。
ALTER SCHEMA share_test_dataset SET OPTIONS(primary_replica = 'us')
注意点として、プライマリにしたいリージョンに食えりエディタのロケーションを合わせる必要があります。今回の場合だとUSマルチリージョンに合わせる必要があります。
詳細オプション
から 自動ロケーション選択
のチェックを外して、USリージョンを指定。
Project B内の share_test_dataset
のロケーションがUSになっていれば成功です。
5. 確認
2.でエラーになったクエリを再度実行します。
select *
from test_analytics_hub_us_data.us_region_valid as validation_table
left join share_test_dataset.share_test_table as shared_table
using(user_id)
さいごに
本記事ではcross-region dataset replicationとAnalytics Hubを利用してプロジェクトとリージョンを跨いだデータの共有を行いました。ほぼリアルタイムでデータの同期がとられるため、データ転送などを行う必要がなく個人的には好きな方法ではあるのですが、いくつか懸念点もありそうです。
最も大きいのはcross-region dataset replicationがプレビュー版の機能であることです。加えて、そもそもこの使い方無理やりすぎてどうなんだ??という気持ちもあります。
上記を踏まえて最低でも正式なバージョンとしてリリースされるまでは待った方がいいんだろうなと感じます。そもそもあんまりリージョンを跨がないほうが楽だから使うSaaSを合わせてくれというのが本音です
それではみなさま良いお年を。
おまけ
検証をやっていて両方のプロジェクトでasia-northeast1とUSのデータセットを持つ必要は無いかな?と思っていましたが、以下のパターンを試した結果両方にないと上手く動かなかったです。予想が含まれていますが原因も大体これかな?というのがあります。
- Project Aのみcross-region dataset replicationで複数リージョンデータ作成
→ Project Bでprimaryとsecondaryの入れ替えが出来ない - Project Bのみcross-region dataset replicationで複数リージョンデータ作成
→ Analytics Hubで共有されたデータが読み取り専用だから、Project Bだけで作成しても書き込みできない?