はじめに
インフォマティカが提供する、 CDGC(データガバナンス&カタログ)を使って、Amazon S3からメタデータを取得(スキャン)するためのガイドです。2023/08時点の情報を元にしています。
事前準備
CDGCがセットアップ済みであり、メタデータコマンドセンターのメニューにアクセスできるライセンス、およびユーザロール、ユーザである事を確認して下さい。こちらのナレッジベースより手順をご確認下さい。
前提
メタデータを抽出するには、以下の権限を割り当ててあるユーザーを利用する必要があります。必要に応じてS3管理者の方とご相談下さい。
メタデータを抽出する権限
・Read Permission.データを読み出す権限は必要です。
・Access Permission.S3リソースを作るユーザと違うユーザでアクセスする場合、アクセス権限は必要です。
メタデータを抽出する対象一覧
・AVRO.
・CSV.
・JSON.
・Parquet.
Excel:
・Excel 97-2003 Workbook with XLS extension
・Excel Workbook with XLSX extension
・Excel Macro-Enabled Workbook with XLSM extension
プロファイリングの実行権限
・PutObject
・GetObject
・DeleteObject
・ListBucket
・ListBucketMultipartUploads
プロファイリングできる対象一覧
・AVRO
・CSV
・Parquet
接続設定
CDGC でソースシステムからからメタデータを抽出するには前提にあるようなソース毎の要件を満たしたユーザーで接続を作成する必要があります。
接続を作成する際に Secure Agent を指定する必要があります。もし、まだインストールされていない方はこちらのナレッジを参考に Secure Agent をインストールしてください。
スキャン設定
英語になっていますが、詳細のステップは、マニュアル、How to Libraryも合わせてご参照ください。
- メニューから「メタデータコマンドセンター」を選択
- メタデータコマンドセンターから「新規」を選択
- カタログソースから「Amazon S3」を選択
- カタログリソース名前を入力し、Amazon S3への接続情報を選んで、「次へ」をクリック。
- メタデータ抽出を設定。ランタイム接続から利用するSecure Agentを選択、必要に応じてフィルタによるパラメータを運用して絞り込みを実施し、「保存」をクリック。
- フィルタを適用して、S3のファイルとフォルダーのメタデータを包含または除外できます。ファイルとフォルダーの名前を指定することで設定できます。詳細の設定はマニュアルを参照して下さい。
6. プロファイリングを設定。「データプロファイリングとデータ品質」タブをクリックし、データプロファイリングの有効化をONにする。
「署名と値を保持」で、値の頻度と呼ばれる実データのサマリを取得できます。プロファイリングスコープを「完全」にすることでメタデータの変更の有無に関わらず、プロファイリングが実施されます。
7. 他にも設定項目はありますが、今回は簡易のスキャン設定なので、このまま保存して、実行していきます。「実行」をクリックし、スキャンを始めます。
実行スコープはそのままにして、実行をクリック。
8. ジョブ監視画面に自動で遷移するので、しばらく待って右上のリフレッシュボタンで進捗を確認。
結果の確認
- スキャンした結果を確認。
CDGCの画面を呼出し、該当のカタログリソースが閲覧できることを確認。
- カラムの詳細画面を確認。
ご自身のデータにより表示する内容も変わるのですが、こちらで電話番号のフォーマットパターンを確認できます。
Tips
- プロファイリングに失敗する場合、ナレッジベース(KB)を参照し、エラーメッセージから検索を実施して下さい。
- Amazon別製品、Google製品とAzure製品等のスキャン方法については別途、記事にする予定です。