LoginSignup
5
1

Terraform を用いて Analytics Hub を設定してみた

Last updated at Posted at 2023-12-13

はじめに

本記事は、BigQuery Advent Calendar 2023 13日目の記事です。

私自身、普段の業務で Analytics Hub を利用しています。
Analytics Hub に関する記事も増えてきていて、個人的にもたくさん参考にさせていただいています。

ですが、私が調べた限りでは、
Terraform を用いての Analytics Hub を設定している記事は見当たりませんでした。
(公式ドキュメントがあるのでは?という声が聞こえてきそうですが、温かい目で見守ってください)

実は、私自身がデータエンジニアとして働き始めてまだ半年弱です。
多くの調べ物をする中で、公式ドキュメントと併せて、皆さんの記事をたくさん読むことで自分の勉強になりました。

そんな思いから、少しでも、どなたかのお役に立てばと思い、書いていきます。

前提

本記事の趣旨から外れてしまうこともあり、一部、基礎知識は割愛させていただきます。
公式ドキュメントや既にたくさんのわかりやすい記事が存在しています。そちらをご確認ください。

少しだけ記載します。

  • Terraform とは、HashiCorp 社が提供する IaC (Infrastructure as Code) の一つです。
  • Analytics Hubは、異なる組織間において、Bigqueryデータセットを効率よく安全に共有することができるサービスです。

加えて、今回の環境において、以下は Terraform 管理外、もしくは割愛しています。

  • 共有するデータセット
  • 各プロジェクトの Analytics Hub API 有効化
  • Google Cloud プロジェクトと Terraform の接続方法

本題

それでは、Terraform を用いて、Analytics Hub の設定を行っていきます。
Analytics Hub の設定手順は大きく分けて、以下の3つです。

手順

  1. データエクスチェンジ を作成
  2. リスティング を作成
  3. ユーザーにサブスクライバー権限を付与

1.データエクスチェンジを作成

まずは、データエクスチェンジを作成する必要があります。
Terraform のコードは以下の通りです。

main.tf
resource "google_bigquery_analytics_hub_data_exchange" "test" {
  
  #Required
    location         = "US"
    data_exchange_id = "test_analytics_hub"
    display_name     = "test_analytics_hub"
  
  #Optional
    primary_contact  = "XXXXX@gmail.com"
    description      = "テストデータです"
    
}

コンソールで確認すると、以下のようにデータエクスチェンジが作成されました。

image.png

image.png

その名の通りですが、
primary_contact が「メインの連絡先」、description が「説明」として設定されています。
※特に設定をしなかった場合は「値なし」と表示されます。

また、プロジェクトはコード内で定義していないため、provider のプロジェクトが自動的に指定されています。(今回の場合だと、publisher-XXXXXX)

その他、詳細は公式ドキュメントをご確認ください。

2.リスティングを作成

続いて、リスティングを作成します。Tearraform のコードは以下の通りです。

main.tf
resource "google_bigquery_analytics_hub_listing" "test" {

  #Required
    location         = "US"
    data_exchange_id = google_bigquery_analytics_hub_data_exchange.test.data_exchange_id
    listing_id       = "test_listing"
    display_name     = "test_listing"

    bigquery_dataset {
      dataset = "projects/publisher-XXXXXX/datasets/test_dataset"
    }

  #Optional
    description      = "テストデータです"
    documentation    = "このデータは、テストデータです"
    
}

ここで作成するリスティングは、先ほど作成したデータエクスチェンジと関連付ける必要があるため、data_exchange_id で 引用しています。

コンソールで確認すると、以下のようにリスティングが作成されています。

image.png

descriptiondocumentation が記載される位置も確認できるかと思います。

image.png

補足

今回共有するデータセットは、以下の Terraform 管理外のものを指定しています。

image.png

この時、dataset は、projects/プロジェクトid/datasets/データセットidで指定することができます。
公式ドキュメントだと、Terraform 管理のデータセットを設定しているので、異なるパターンにしました)

3.ユーザーにサブスクライバー権限を付与

最後に、データセットの共有相手にサブスクライバー権限を付与します。
Tearraform のコードは以下の通りです。

main.tf
data "google_iam_policy" "admin" {
  binding {
    role = "roles/analyticshub.subscriber"
    members = [
      "user:xxxxxx@gmail.com",
    ]
  }
}

resource "google_bigquery_analytics_hub_data_exchange_iam_policy" "policy" {
  project          = google_bigquery_analytics_hub_data_exchange.test.project
  location         = google_bigquery_analytics_hub_data_exchange.test.location
  data_exchange_id = google_bigquery_analytics_hub_data_exchange.test.data_exchange_id
  policy_data      = data.google_iam_policy.admin.policy_data
}

基本的に、権限付与に関連しない引数は、既に作成済であるデータエクスチェンジの情報を引用すれば問題ありません。

コンソールで確認すると、サブスクライバーとしてユーザーに権限が付与されていることが確認できます。

image.png

今回は、メールアドレスを用いて特定のユーザーのみに権限を付与しています。
しかしながら、グループ単位での権限付与や一般公開設定も可能です。
是非、公式ドキュメントをご確認ください。

以上で、Analytics Hub の設定は完了です。

念のため

無事にサブスクライバーのプロジェクトにデータセットを登録することが出来ています。

image.png

最後に

今回は、Terraform を用いて Analytics Hub を設定してみました。
そこまで複雑な内容ではなく、比較的簡単に実装できることを感じていただけたのではないでしょうか?
Analytics Hub は、このように簡単にデータシェアリングを実現してくれます。
データクリーンルームもサポートされていることから、今後より一層、データシェアリングを行う上で有効的な手段の一つとして選択されていくのではないでしょうか?
皆さんも是非、色々な場面で Analytics Hub を利用してみていただけますと幸いです。

5
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
1