はじめに
本記事は、BigQuery Advent Calendar 2023 13日目の記事です。
私自身、普段の業務で Analytics Hub を利用しています。
Analytics Hub に関する記事も増えてきていて、個人的にもたくさん参考にさせていただいています。
ですが、私が調べた限りでは、
Terraform を用いての Analytics Hub を設定している記事は見当たりませんでした。
(公式ドキュメントがあるのでは?という声が聞こえてきそうですが、温かい目で見守ってください)
実は、私自身がデータエンジニアとして働き始めてまだ半年弱です。
多くの調べ物をする中で、公式ドキュメントと併せて、皆さんの記事をたくさん読むことで自分の勉強になりました。
そんな思いから、少しでも、どなたかのお役に立てばと思い、書いていきます。
前提
本記事の趣旨から外れてしまうこともあり、一部、基礎知識は割愛させていただきます。
公式ドキュメントや既にたくさんのわかりやすい記事が存在しています。そちらをご確認ください。
少しだけ記載します。
- Terraform とは、HashiCorp 社が提供する IaC (Infrastructure as Code) の一つです。
- Analytics Hubは、異なる組織間において、Bigqueryデータセットを効率よく安全に共有することができるサービスです。
加えて、今回の環境において、以下は Terraform 管理外、もしくは割愛しています。
- 共有するデータセット
- 各プロジェクトの Analytics Hub API 有効化
- Google Cloud プロジェクトと Terraform の接続方法
本題
それでは、Terraform を用いて、Analytics Hub の設定を行っていきます。
Analytics Hub の設定手順は大きく分けて、以下の3つです。
手順
- データエクスチェンジ を作成
- リスティング を作成
- ユーザーにサブスクライバー権限を付与
1.データエクスチェンジを作成
まずは、データエクスチェンジを作成する必要があります。
Terraform のコードは以下の通りです。
resource "google_bigquery_analytics_hub_data_exchange" "test" {
#Required
location = "US"
data_exchange_id = "test_analytics_hub"
display_name = "test_analytics_hub"
#Optional
primary_contact = "XXXXX@gmail.com"
description = "テストデータです"
}
コンソールで確認すると、以下のようにデータエクスチェンジが作成されました。
その名の通りですが、
primary_contact
が「メインの連絡先」、description
が「説明」として設定されています。
※特に設定をしなかった場合は「値なし」と表示されます。
また、プロジェクトはコード内で定義していないため、provider のプロジェクトが自動的に指定されています。(今回の場合だと、publisher-XXXXXX)
その他、詳細は公式ドキュメントをご確認ください。
2.リスティングを作成
続いて、リスティングを作成します。Tearraform のコードは以下の通りです。
resource "google_bigquery_analytics_hub_listing" "test" {
#Required
location = "US"
data_exchange_id = google_bigquery_analytics_hub_data_exchange.test.data_exchange_id
listing_id = "test_listing"
display_name = "test_listing"
bigquery_dataset {
dataset = "projects/publisher-XXXXXX/datasets/test_dataset"
}
#Optional
description = "テストデータです"
documentation = "このデータは、テストデータです"
}
ここで作成するリスティングは、先ほど作成したデータエクスチェンジと関連付ける必要があるため、data_exchange_id
で 引用しています。
コンソールで確認すると、以下のようにリスティングが作成されています。
description
と documentation
が記載される位置も確認できるかと思います。
補足
今回共有するデータセットは、以下の Terraform 管理外のものを指定しています。
この時、dataset
は、projects/プロジェクトid/datasets/データセットid
で指定することができます。
(公式ドキュメントだと、Terraform 管理のデータセットを設定しているので、異なるパターンにしました)
3.ユーザーにサブスクライバー権限を付与
最後に、データセットの共有相手にサブスクライバー権限を付与します。
Tearraform のコードは以下の通りです。
data "google_iam_policy" "admin" {
binding {
role = "roles/analyticshub.subscriber"
members = [
"user:xxxxxx@gmail.com",
]
}
}
resource "google_bigquery_analytics_hub_data_exchange_iam_policy" "policy" {
project = google_bigquery_analytics_hub_data_exchange.test.project
location = google_bigquery_analytics_hub_data_exchange.test.location
data_exchange_id = google_bigquery_analytics_hub_data_exchange.test.data_exchange_id
policy_data = data.google_iam_policy.admin.policy_data
}
基本的に、権限付与に関連しない引数は、既に作成済であるデータエクスチェンジの情報を引用すれば問題ありません。
コンソールで確認すると、サブスクライバーとしてユーザーに権限が付与されていることが確認できます。
今回は、メールアドレスを用いて特定のユーザーのみに権限を付与しています。
しかしながら、グループ単位での権限付与や一般公開設定も可能です。
是非、公式ドキュメントをご確認ください。
以上で、Analytics Hub の設定は完了です。
念のため
無事にサブスクライバーのプロジェクトにデータセットを登録することが出来ています。
最後に
今回は、Terraform を用いて Analytics Hub を設定してみました。
そこまで複雑な内容ではなく、比較的簡単に実装できることを感じていただけたのではないでしょうか?
Analytics Hub は、このように簡単にデータシェアリングを実現してくれます。
データクリーンルームもサポートされていることから、今後より一層、データシェアリングを行う上で有効的な手段の一つとして選択されていくのではないでしょうか?
皆さんも是非、色々な場面で Analytics Hub を利用してみていただけますと幸いです。