はじめに
インフォマティカが提供する、 CDGC(データガバナンス&カタログ)を使って、Snowflakeからメタデータを取得(スキャン)するためのガイドです。2023/07時点の情報を元にしています。
事前準備
CDGCがセットアップ済みであり、メタデータコマンドセンターのメニューにアクセスできるライセンス、およびユーザロール、ユーザである事を確認して下さい。こちらのナレッジベースより手順をご確認下さい。
前提
-
SnowflakeのPermission
メタデータを抽出するには、以下の権限を割り当ててあるユーザーを利用する必要があります。必要に応じてSnowflake管理者の方とご相談下さい。
Permission Privilege name Database Usage Schema Usage Table All Sequence All Stored Procedure All これらの権限により、以下の操作を行うことができます
select on information_schema.EXTERNAL_TABLES
select on information_schema.FUNCTIONS
select on information_schema.PIPES
select on information_schema.PROCEDURES
select on information_schema.SCHEMATA
select on information_schema.SEQUENCES
select on information_schema.STAGES
select on SNOWFLAKE.ACCOUNT_USAGE.TAGS
select on SNOWFLAKE.ACCOUNT_USAGE.TAG_REFERENCES
Show objects
Show columns
Show primary keys
Show imported keys
Show streams
Show materialized views
Show tasks
Show databasesデータ・プロファイルの実行権限
データ・プロファイルを実行するために追加の権限は必要ありません。メタデータの抽出に使用される権限でデータ プロファイルを実行できます。
スキャン対象
Snowflakeから下記のメタデータを取得可能です。
- データベース
- スキーマ
- テーブル
- ビュー
- マテリアライズド・ビュー
- 関数
- ストアドプロシージャ
- パイプ
- ステージ
- カラム
接続設定
CDGCのスキャンに限らず、IDMCプラットフォームとしては、各種DBやファイルシステムへアクセスするために接続(Connection)を作成する必要があります。ナレッジベース(KB)の手順もご確認下さい
- タイプは「Snowflake Data Cloud」を選択して下さい。
- Authentication認証タイプ毎の設定については、マニュアルの「Connection properties」をご確認下さい。
JDBCパラメータは、特にプロファイリング等が失敗する場合は設定を試してみて下さい。
ナレッジベース(KB) ERROR: "Please provide correct path for the Object. [Data Asset Name] was not found" when snowflake profiling fails in CDGC
スキャン設定
詳細のステップは、マニュアル、How to Libraryも合わせて参照して下さい。
-
Snowflakeへの接続情報を選択し「次へ」をクリック
必要に応じて、「テスト接続」にて、正常に接続できることを確認して下さい
-
ランタイム接続から利用するSecure Agentを選択、必要に応じてフィルタによる絞り込みを実施し、「保存」をクリック
- フィルタを適用して、Snowflakeのデータベース、スキーマからメタデータを包含または除外できます。絶対パスはピリオドを区切り文字として指定して下さい。なお、テーブルの指定はできません。詳細の設定はマニュアルを参照して下さい。
- ストアドプロシージャ等のプログラムを取得したい場合は、「プログラム可能オブジェクトの処理」を「はい」にします
1.プロファイリングの設定
データプロファイリングを設定して、Snowflake ソースシステムから抽出されたメタデータに対してプロファイルを実行します。以下の Snowflake オブジェクトに対してデータプロファイルを実行できます:
- テーブル
- ビュー
「データプロファイリングとデータ品質」タブをクリックし、データプロファイリングの右側の矢印をクリック
必要に応じて、任意のパラメータ設定を実施します。ランタイム接続の選択とパラメータを設定し、保存をクリック
「署名と値を保持」で、値の頻度と呼ばれる実データのサマリを取得できます。プロファイリングスコープを「完全」にすることでメタデータの変更の有無に関わらず、プロファイリングが実施されます。
1.「関連付け」「スケジュール」は必要に応じて設定しますが、今回はすぐにスキャンを実施したいため、「実行」をクリック
結果の確認
Tips
- プロファイリングに失敗する場合、ナレッジベース(KB)を参照し、エラーメッセージから検索を実施して下さい。
- SQLファイル等スクリプトの取り込み、Write backについては別途、記事にする予定です