はじめに
インフォマティカが提供する、 CDGC(データガバナンス&カタログ)を使って、Amazon Redshiftからメタデータを取得(スキャン)するためのガイドです。
※2023/10時点の情報を元にしています。
事前準備
CDGCがセットアップ済みであり、メタデータコマンドセンターのメニューにアクセスできるライセンス、およびユーザロール、ユーザである事を確認して下さい。こちらのナレッジベースより手順をご確認下さい。
前提
Amazon Redshiftで必要な権限
-
Amazon Redshift外部ソースの読み取り権限。
-
以下の操作を実行できる権限:
select on pg_catalog.PG_ATTRIBUTE
select on pg_catalog.PG_CLASS
select on pg_catalog.PG_CONSTRAINT
select on pg_catalog.PG_DESCRIPTION
select on pg_catalog.PG_LANGUAGE
select on pg_catalog.PG_NAMESPACE
select on pg_catalog.PG_PROC
select on pg_catalog.PG_TYPE
select on pg_catalog.PG_VIEWS
select on pg_catalog.SVV_EXTERNAL_TABLES
select on pg_catalog.SVV_EXTERNAL_COLUMNS
select on information_schema.COLUMNS
select on information_schema.TABLES
select on pg_catalog.PG_TABLES
select on pg_catalog.PG_CLASS_INFO
select on pg_catalog.PG_PROC_INFO -
処理したいテーブルの SHOW EXTERNAL TABLE 権限。
-
データプロファイリングを実行するには、Amazon Redshiftソースシステムにデータをアンロードする必要があります。データをアンロードするために、以下のAmazon Redshiftコネクタ権限を設定します:
PutObject
GetObject
DeleteObject
ListBucket
GetBucketPolicy
スキャン対象
Redshiftから下記のメタデータを取得可能です。
- データベース
- スキーマ
- 外部スキーマ
- テーブル
- 外部テーブル
- ビュー
- マテリアライズド・ビュー
- ファンクション
- プロシージャ
- カラム
プロファイリング対象
Amazon Redshiftのソースシステムから抽出されたメタデータに対してプロファイルを実行する為にデータプロファイリングを設定します。以下の Amazon Redshift オブジェクトに対してデータプロファイルを実行することができます:
- テーブル
- ビュー
接続設定
CDGCのスキャンに限らず、IDMCプラットフォームとしては、各種DBやファイルシステムへアクセスするために接続(Connection)を作成する必要があります。ナレッジベース(KB)の手順もご確認下さい
- タイプは「Amazon Redshift V2」を選択して下さい。
- JDBC URLは次の形式で入力します。画面右側のセットアップガイドも参照して下さい
jdbc:redshift://<amazon_redshift_host>:<port_number>/<database_name>
スキャン設定
詳細のステップは、マニュアル、How to Libraryも合わせて参照して下さい。
3. カタログソースから「Amazon Redshift」を選択
4. Amazon Redshiftへの接続情報を選択し「次へ」をクリック
必要に応じて、「テスト接続」にて、正常に接続できることを確認して下さい
5. ランタイム接続から利用するSecure Agentを選択、必要に応じてフィルタによる絞り込みを実施し、「保存」をクリック
- フィルタを適用して、Amazon Redshiftのスキーマ、テーブルからメタデータを包含または除外できます。なお、Schema_Name.TABLE_NAME 等でピリオドで区切ることで特定のスキーマのテーブルを指定することも可能です。詳細の設定はマニュアルを参照して下さい。
- ストアドプロシージャ等のプログラムを取得したい場合は、「プログラム可能オブジェクトの処理」を「はい」にします
6.プロファイリングの設定
「データプロファイリングとデータ品質」タブをクリックし、データプロファイリングの右側の矢印をクリック
必要に応じて、任意のパラメータ設定を実施します。ランタイム接続の選択とパラメータを設定し、保存をクリック
「署名と値を保持」で、値の頻度と呼ばれる実データのサマリを取得できます。プロファイリングスコープを「完全」にすることでメタデータの変更の有無に関わらず、プロファイリングが実施されます。
プロファイリングでは、S3バケットを使用してデータをステージングします。上段のS3の権限と、十分なストレージ容量があることを確認してください。
Amazon S3バケットに対する操作を実行するために、ユーザーに以下のIAM権限を付与します:
s3:PutObject, s3:GetObject, s3:GetBucketLocation
プロファイリングに失敗する場合は、こちらのKBも参考にして下さい。
7.「関連付け」「スケジュール」は必要に応じて設定しますが、今回はすぐにスキャンを実施したいため、「保存」後に、「実行」をクリックし、実行スコープを確認して、実行を開始
結果の確認
Tips
- プロファイリングに失敗する場合、ナレッジベース(KB)を参照し、エラーメッセージから検索を実施して下さい。