LoginSignup
13
7

はじめに

インフォマティカが提供する、 CDGC(データガバナンス&カタログ)を使って、Google BigQueryからメタデータを取得(スキャン)するためのガイドです。
※2023/12時点の情報を元にしています。

image.png

事前準備

CDGCがセットアップ済みであり、メタデータコマンドセンターのメニューにアクセスできるライセンス、およびユーザロール、ユーザである事を確認して下さい。こちらのナレッジベースより手順をご確認下さい。

また、ドキュメントのCatalog Source Configurationページも参照して、手順を確認して下さい。

前提

Google BigQueryで必要な権限は以下の通りです。

  • Google BigQuery ソースシステムからメタデータを抽出するには、以下のオプションのいずれかを選択します:
    • 既存のロールを使用し、カスタム ロールの作成を回避する場合は、Google Cloud Platform プロジェクトへのアクセスに使用するサービス アカウントに BigQuery Data Viewer および BigQuery Metadata Viewer ロールを割り当てます。

    • 最小限のパーミッションを使用する場合は、以下のパーミッションを持つカスタム ロールを作成し、Google Cloud Platform プロジェクトへのアクセスに使用するサービス アカウントにカスタム ロールを割り当てます
      • bigquery.datasets.get
      • bigquery.models.getMetadata
      • bigquery.routines.get
      • bigquery.tables.get
      • bigquery.tables.list
      • bigquery.jobs.create
      • bigquery.tables.getData
  • データ・プロファイルの実行権限
    • データプロファイルを実行するために追加のパーミッションは必要ありません。メタデータの抽出に使用したのと同じパーミッションでデータプロファイルを実行できます。

スキャン対象

Google BigQueryカタログソースは、Google BigQueryソースシステム内の以下のアセットからメタデータを抽出します

  • プロジェクト
  • データセット
  • テーブル
  • 外部テーブル
  • パーティション・テーブル
  • ビュー
  • マテリアライズド・ビュー
    • マテリアライズド・ビュー・タイプのオブジェクトは、データガバナンスおよびカタログではビューとして表示されます。
  • ストアド・プロシージャ
  • SQLユーザー定義関数(UDF)

プロファイリング対象

Google BigQueryソースシステムから抽出されたメタデータに対してプロファイルを実行するために、データプロファイリングを設定します。以下の Google BigQuery オブジェクトに対してデータプロファイルを実行できます:

  • テーブル
  • 外部テーブル
    • Google Cloud Storageに作成された外部テーブルに対してのみ、データプロファイルを実行できます。
  • パーティショニングされたテーブル
  • ビュー
  • マテリアライズド・ビュー

接続設定

CDGCのスキャンに限らず、IDMCプラットフォームとしては、各種DBやファイルシステムへアクセスするために接続(Connection)を作成する必要があります。ナレッジベース(KB)の手順もご確認下さい

  1. 管理メニュー → 接続からBigQueryへアクセスするための情報を入力
    image.png
  • タイプは「Google BigQuery V2」を選択して下さい。
  • Google CloudのサービスアカウントからダウンロードできるJSONファイルに各種設定値が記載されているため、そちらを参照して下さい。

スキャン設定

詳細のステップは、マニュアルも合わせて参照して下さい。

1. メニューから「メタデータコマンドセンター」を選択
chrome_1tgmiMYCUF.png

2. メタデータコマンドセンターから「新規」を選択
chrome_w8lflLEgjP.png

3. カタログソースから「Google BigQuery」を選択
image.png

4. Google BigQueryへの接続情報を選択し「次へ」をクリック
必要に応じて、「テスト接続」にて、正常に接続できることを確認して下さい
image.png

5. ランタイム接続から利用するSecure Agentを選択、必要に応じてフィルタによる絞り込みを実施し、「保存」をクリック
image.png

  • フィルタを適用して、Google BigQueryのスキーマ、テーブル、ストアドプロシージャからメタデータを包含または除外できます。

6.プロファイリングの設定

「データプロファイリングとデータ品質」タブをクリックし、データプロファイリングの右側の矢印をクリック
image.png

必要に応じて、任意のパラメータ設定を実施します。ランタイム接続の選択とパラメータを設定し、保存をクリック
「署名と値を保持」で、値の頻度と呼ばれる実データのサマリを取得できます。プロファイリングスコープを「完全」にすることでメタデータの変更の有無に関わらず、プロファイリングが実施されます。
image.png

7.「関連付け」「スケジュール」は必要に応じて設定しますが、今回はすぐにスキャンを実施したいため、「保存」後に、「実行」をクリックし、実行スコープを確認して、実行を開始
image.png

8. ジョブ監視画面に自動で遷移するので、しばらく待ってステータスが完了した事を確認
image.png

結果の確認

  • 取得したアセットの一覧を表示
    CDGCの画面を呼出し、該当のカタログリソースが閲覧できることを確認する
    image.png

参考文献

13
7
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
13
7