4
0

[CDGC] Amazon Redshiftのスキャン

Last updated at Posted at 2023-10-04

はじめに

インフォマティカが提供する、 CDGC(データガバナンス&カタログ)を使って、Amazon Redshiftからメタデータを取得(スキャン)するためのガイドです。
※2023/10時点の情報を元にしています。

image.png

事前準備

CDGCがセットアップ済みであり、メタデータコマンドセンターのメニューにアクセスできるライセンス、およびユーザロール、ユーザである事を確認して下さい。こちらのナレッジベースより手順をご確認下さい。

前提

Amazon Redshiftで必要な権限

  • Amazon Redshift外部ソースの読み取り権限。

  • 以下の操作を実行できる権限:
    select on pg_catalog.PG_ATTRIBUTE
    select on pg_catalog.PG_CLASS
    select on pg_catalog.PG_CONSTRAINT
    select on pg_catalog.PG_DESCRIPTION
    select on pg_catalog.PG_LANGUAGE
    select on pg_catalog.PG_NAMESPACE
    select on pg_catalog.PG_PROC
    select on pg_catalog.PG_TYPE
    select on pg_catalog.PG_VIEWS
    select on pg_catalog.SVV_EXTERNAL_TABLES
    select on pg_catalog.SVV_EXTERNAL_COLUMNS
    select on information_schema.COLUMNS
    select on information_schema.TABLES
    select on pg_catalog.PG_TABLES
    select on pg_catalog.PG_CLASS_INFO
    select on pg_catalog.PG_PROC_INFO

  • 処理したいテーブルの SHOW EXTERNAL TABLE 権限。

  • データプロファイリングを実行するには、Amazon Redshiftソースシステムにデータをアンロードする必要があります。データをアンロードするために、以下のAmazon Redshiftコネクタ権限を設定します:
    PutObject
    GetObject
    DeleteObject
    ListBucket
    GetBucketPolicy

スキャン対象

Redshiftから下記のメタデータを取得可能です。

  • データベース
  • スキーマ
  • 外部スキーマ
  • テーブル
  • 外部テーブル
  • ビュー
  • マテリアライズド・ビュー
  • ファンクション
  • プロシージャ
  • カラム

プロファイリング対象

Amazon Redshiftのソースシステムから抽出されたメタデータに対してプロファイルを実行する為にデータプロファイリングを設定します。以下の Amazon Redshift オブジェクトに対してデータプロファイルを実行することができます:

  • テーブル
  • ビュー

接続設定

CDGCのスキャンに限らず、IDMCプラットフォームとしては、各種DBやファイルシステムへアクセスするために接続(Connection)を作成する必要があります。ナレッジベース(KB)の手順もご確認下さい

  1. 管理メニュー → 接続からRedshiftへアクセスするための情報を入力
    image.png
  • タイプは「Amazon Redshift V2」を選択して下さい。
  • JDBC URLは次の形式で入力します。画面右側のセットアップガイドも参照して下さい
    jdbc:redshift://<amazon_redshift_host>:<port_number>/<database_name>

スキャン設定

詳細のステップは、マニュアルHow to Libraryも合わせて参照して下さい。

1. メニューから「メタデータコマンドセンター」を選択
chrome_1tgmiMYCUF.png

2. メタデータコマンドセンターから「新規」を選択
chrome_w8lflLEgjP.png

3. カタログソースから「Amazon Redshift」を選択
image.png

4. Amazon Redshiftへの接続情報を選択し「次へ」をクリック
必要に応じて、「テスト接続」にて、正常に接続できることを確認して下さい
image.png

5. ランタイム接続から利用するSecure Agentを選択、必要に応じてフィルタによる絞り込みを実施し、「保存」をクリック
image.png

  • フィルタを適用して、Amazon Redshiftのスキーマ、テーブルからメタデータを包含または除外できます。なお、Schema_Name.TABLE_NAME 等でピリオドで区切ることで特定のスキーマのテーブルを指定することも可能です。詳細の設定はマニュアルを参照して下さい。
  • ストアドプロシージャ等のプログラムを取得したい場合は、「プログラム可能オブジェクトの処理」を「はい」にします

6.プロファイリングの設定

「データプロファイリングとデータ品質」タブをクリックし、データプロファイリングの右側の矢印をクリック
image.png

必要に応じて、任意のパラメータ設定を実施します。ランタイム接続の選択とパラメータを設定し、保存をクリック
「署名と値を保持」で、値の頻度と呼ばれる実データのサマリを取得できます。プロファイリングスコープを「完全」にすることでメタデータの変更の有無に関わらず、プロファイリングが実施されます。

image.png

プロファイリングでは、S3バケットを使用してデータをステージングします。上段のS3の権限と、十分なストレージ容量があることを確認してください。
Amazon S3バケットに対する操作を実行するために、ユーザーに以下のIAM権限を付与します:
s3:PutObject, s3:GetObject, s3:GetBucketLocation

プロファイリングに失敗する場合は、こちらのKBも参考にして下さい。

7.「関連付け」「スケジュール」は必要に応じて設定しますが、今回はすぐにスキャンを実施したいため、「保存」後に、「実行」をクリックし、実行スコープを確認して、実行を開始
image.png

  1. ジョブ監視画面に自動で遷移するので、しばらく待ってステータスが完了した事を確認
    image.png

結果の確認

  • 取得したアセットの一覧を表示
    CDGCの画面を呼出し、該当のカタログリソースが閲覧できることを確認する
    image.png

Tips

  • プロファイリングに失敗する場合、ナレッジベース(KB)を参照し、エラーメッセージから検索を実施して下さい。

参考文献

4
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
0