More than 1 year has passed since last update.

インフォマティカ・ジャパン株式会社

[CDGC] Amazon Redshiftのスキャン

Last updated at 2023-10-04Posted at 2023-10-04

はじめに

インフォマティカが提供する、 CDGC(データガバナンス＆カタログ)を使って、Amazon Redshiftからメタデータを取得(スキャン)するためのガイドです。
※2023/10時点の情報を元にしています。

事前準備

CDGCがセットアップ済みであり、メタデータコマンドセンターのメニューにアクセスできるライセンス、およびユーザロール、ユーザである事を確認して下さい。こちらのナレッジベースより手順をご確認下さい。

前提

Amazon Redshiftで必要な権限

Amazon Redshift外部ソースの読み取り権限。
以下の操作を実行できる権限：
select on pg_catalog.PG_ATTRIBUTE
select on pg_catalog.PG_CLASS
select on pg_catalog.PG_CONSTRAINT
select on pg_catalog.PG_DESCRIPTION
select on pg_catalog.PG_LANGUAGE
select on pg_catalog.PG_NAMESPACE
select on pg_catalog.PG_PROC
select on pg_catalog.PG_TYPE
select on pg_catalog.PG_VIEWS
select on pg_catalog.SVV_EXTERNAL_TABLES
select on pg_catalog.SVV_EXTERNAL_COLUMNS
select on information_schema.COLUMNS
select on information_schema.TABLES
select on pg_catalog.PG_TABLES
select on pg_catalog.PG_CLASS_INFO
select on pg_catalog.PG_PROC_INFO
処理したいテーブルの SHOW EXTERNAL TABLE 権限。
データプロファイリングを実行するには、Amazon Redshiftソースシステムにデータをアンロードする必要があります。データをアンロードするために、以下のAmazon Redshiftコネクタ権限を設定します：
PutObject
GetObject
DeleteObject
ListBucket
GetBucketPolicy

スキャン対象

Redshiftから下記のメタデータを取得可能です。

データベース
スキーマ
外部スキーマ
テーブル
外部テーブル
ビュー
マテリアライズド・ビュー
ファンクション
プロシージャ
カラム

プロファイリング対象

Amazon Redshiftのソースシステムから抽出されたメタデータに対してプロファイルを実行する為にデータプロファイリングを設定します。以下の Amazon Redshift オブジェクトに対してデータプロファイルを実行することができます：

テーブル
ビュー

接続設定

CDGCのスキャンに限らず、IDMCプラットフォームとしては、各種DBやファイルシステムへアクセスするために接続(Connection)を作成する必要があります。ナレッジベース(KB)の手順もご確認下さい

管理メニュー → 接続からRedshiftへアクセスするための情報を入力

タイプは「Amazon Redshift V2」を選択して下さい。
JDBC URLは次の形式で入力します。画面右側のセットアップガイドも参照して下さい
jdbc:redshift://＜amazon_redshift_host＞:＜port_number＞/＜database_name＞

スキャン設定

詳細のステップは、マニュアル、How to Libraryも合わせて参照して下さい。

1. メニューから「メタデータコマンドセンター」を選択

2. メタデータコマンドセンターから「新規」を選択

3. カタログソースから「Amazon Redshift」を選択

4. Amazon Redshiftへの接続情報を選択し「次へ」をクリック
必要に応じて、「テスト接続」にて、正常に接続できることを確認して下さい

5. ランタイム接続から利用するSecure Agentを選択、必要に応じてフィルタによる絞り込みを実施し、「保存」をクリック

フィルタを適用して、Amazon Redshiftのスキーマ、テーブルからメタデータを包含または除外できます。なお、Schema_Name.TABLE_NAME 等でピリオドで区切ることで特定のスキーマのテーブルを指定することも可能です。詳細の設定はマニュアルを参照して下さい。
ストアドプロシージャ等のプログラムを取得したい場合は、「プログラム可能オブジェクトの処理」を「はい」にします

6.プロファイリングの設定

「データプロファイリングとデータ品質」タブをクリックし、データプロファイリングの右側の矢印をクリック

必要に応じて、任意のパラメータ設定を実施します。ランタイム接続の選択とパラメータを設定し、保存をクリック
「署名と値を保持」で、値の頻度と呼ばれる実データのサマリを取得できます。プロファイリングスコープを「完全」にすることでメタデータの変更の有無に関わらず、プロファイリングが実施されます。

プロファイリングでは、S3バケットを使用してデータをステージングします。上段のS3の権限と、十分なストレージ容量があることを確認してください。
Amazon S3バケットに対する操作を実行するために、ユーザーに以下のIAM権限を付与します：
s3:PutObject, s3:GetObject, s3:GetBucketLocation

プロファイリングに失敗する場合は、こちらのKBも参考にして下さい。

7.「関連付け」「スケジュール」は必要に応じて設定しますが、今回はすぐにスキャンを実施したいため、「保存」後に、「実行」をクリックし、実行スコープを確認して、実行を開始

ジョブ監視画面に自動で遷移するので、しばらく待ってステータスが完了した事を確認

結果の確認

取得したアセットの一覧を表示
CDGCの画面を呼出し、該当のカタログリソースが閲覧できることを確認する

Tips

プロファイリングに失敗する場合、ナレッジベース(KB)を参照し、エラーメッセージから検索を実施して下さい。

参考文献

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up