はじめに
インフォマティカが提供する、 CDGC(データガバナンス&カタログ)を使って、Google BigQueryからメタデータを取得(スキャン)するためのガイドです。
※2023/12時点の情報を元にしています。
事前準備
CDGCがセットアップ済みであり、メタデータコマンドセンターのメニューにアクセスできるライセンス、およびユーザロール、ユーザである事を確認して下さい。こちらのナレッジベースより手順をご確認下さい。
また、ドキュメントのCatalog Source Configurationページも参照して、手順を確認して下さい。
前提
Google BigQueryで必要な権限は以下の通りです。
- Google BigQuery ソースシステムからメタデータを抽出するには、以下のオプションのいずれかを選択します:
- 既存のロールを使用し、カスタム ロールの作成を回避する場合は、Google Cloud Platform プロジェクトへのアクセスに使用するサービス アカウントに BigQuery Data Viewer および BigQuery Metadata Viewer ロールを割り当てます。
- 最小限のパーミッションを使用する場合は、以下のパーミッションを持つカスタム ロールを作成し、Google Cloud Platform プロジェクトへのアクセスに使用するサービス アカウントにカスタム ロールを割り当てます
- bigquery.datasets.get
- bigquery.models.getMetadata
- bigquery.routines.get
- bigquery.tables.get
- bigquery.tables.list
- bigquery.jobs.create
- bigquery.tables.getData
- データ・プロファイルの実行権限
- データプロファイルを実行するために追加のパーミッションは必要ありません。メタデータの抽出に使用したのと同じパーミッションでデータプロファイルを実行できます。
スキャン対象
Google BigQueryカタログソースは、Google BigQueryソースシステム内の以下のアセットからメタデータを抽出します
- プロジェクト
- データセット
- テーブル
- 外部テーブル
- パーティション・テーブル
- ビュー
- マテリアライズド・ビュー
- マテリアライズド・ビュー・タイプのオブジェクトは、データガバナンスおよびカタログではビューとして表示されます。
- ストアド・プロシージャ
- SQLユーザー定義関数(UDF)
プロファイリング対象
Google BigQueryソースシステムから抽出されたメタデータに対してプロファイルを実行するために、データプロファイリングを設定します。以下の Google BigQuery オブジェクトに対してデータプロファイルを実行できます:
- テーブル
- 外部テーブル
- Google Cloud Storageに作成された外部テーブルに対してのみ、データプロファイルを実行できます。
- パーティショニングされたテーブル
- ビュー
- マテリアライズド・ビュー
接続設定
CDGCのスキャンに限らず、IDMCプラットフォームとしては、各種DBやファイルシステムへアクセスするために接続(Connection)を作成する必要があります。ナレッジベース(KB)の手順もご確認下さい
- タイプは「Google BigQuery V2」を選択して下さい。
- Google CloudのサービスアカウントからダウンロードできるJSONファイルに各種設定値が記載されているため、そちらを参照して下さい。
スキャン設定
詳細のステップは、マニュアルも合わせて参照して下さい。
3. カタログソースから「Google BigQuery」を選択
4. Google BigQueryへの接続情報を選択し「次へ」をクリック
必要に応じて、「テスト接続」にて、正常に接続できることを確認して下さい
5. ランタイム接続から利用するSecure Agentを選択、必要に応じてフィルタによる絞り込みを実施し、「保存」をクリック
- フィルタを適用して、Google BigQueryのスキーマ、テーブル、ストアドプロシージャからメタデータを包含または除外できます。
6.プロファイリングの設定
「データプロファイリングとデータ品質」タブをクリックし、データプロファイリングの右側の矢印をクリック
必要に応じて、任意のパラメータ設定を実施します。ランタイム接続の選択とパラメータを設定し、保存をクリック
「署名と値を保持」で、値の頻度と呼ばれる実データのサマリを取得できます。プロファイリングスコープを「完全」にすることでメタデータの変更の有無に関わらず、プロファイリングが実施されます。
7.「関連付け」「スケジュール」は必要に応じて設定しますが、今回はすぐにスキャンを実施したいため、「保存」後に、「実行」をクリックし、実行スコープを確認して、実行を開始
8. ジョブ監視画面に自動で遷移するので、しばらく待ってステータスが完了した事を確認