14
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

[CDGC] Amazon S3のスキャン

Last updated at Posted at 2023-08-04

はじめに

インフォマティカが提供する、 CDGC(データガバナンス&カタログ)を使って、Amazon S3からメタデータを取得(スキャン)するためのガイドです。2023/08時点の情報を元にしています。
image.png

事前準備

CDGCがセットアップ済みであり、メタデータコマンドセンターのメニューにアクセスできるライセンス、およびユーザロール、ユーザである事を確認して下さい。こちらのナレッジベースより手順をご確認下さい。

前提

メタデータを抽出するには、以下の権限を割り当ててあるユーザーを利用する必要があります。必要に応じてS3管理者の方とご相談下さい。

メタデータを抽出する権限
・Read Permission.データを読み出す権限は必要です。
・Access Permission.S3リソースを作るユーザと違うユーザでアクセスする場合、アクセス権限は必要です。

メタデータを抽出する対象一覧
・AVRO.
・CSV.
・JSON.
・Parquet.
Excel:
・Excel 97-2003 Workbook with XLS extension
・Excel Workbook with XLSX extension
・Excel Macro-Enabled Workbook with XLSM extension

プロファイリングの実行権限
・PutObject
・GetObject
・DeleteObject
・ListBucket
・ListBucketMultipartUploads

プロファイリングできる対象一覧
・AVRO
・CSV
・Parquet

接続設定

CDGC でソースシステムからからメタデータを抽出するには前提にあるようなソース毎の要件を満たしたユーザーで接続を作成する必要があります。

接続を作成する際に Secure Agent を指定する必要があります。もし、まだインストールされていない方はこちらのナレッジを参考に Secure Agent をインストールしてください。

以下、接続例です。
image.png

スキャン設定

英語になっていますが、詳細のステップは、マニュアルHow to Libraryも合わせてご参照ください。

  1. メニューから「メタデータコマンドセンター」を選択
    image.png
  2. メタデータコマンドセンターから「新規」を選択
    image.png
  3. カタログソースから「Amazon S3」を選択
    image.png
  4. カタログリソース名前を入力し、Amazon S3への接続情報を選んで、「次へ」をクリック。
    image.png
  5. メタデータ抽出を設定。ランタイム接続から利用するSecure Agentを選択、必要に応じてフィルタによるパラメータを運用して絞り込みを実施し、「保存」をクリック。
    image.png
  • フィルタを適用して、S3のファイルとフォルダーのメタデータを包含または除外できます。ファイルとフォルダーの名前を指定することで設定できます。詳細の設定はマニュアルを参照して下さい。

6. プロファイリングを設定。「データプロファイリングとデータ品質」タブをクリックし、データプロファイリングの有効化をONにする。
image.png

「署名と値を保持」で、値の頻度と呼ばれる実データのサマリを取得できます。プロファイリングスコープを「完全」にすることでメタデータの変更の有無に関わらず、プロファイリングが実施されます。
image.png

7. 他にも設定項目はありますが、今回は簡易のスキャン設定なので、このまま保存して、実行していきます。「実行」をクリックし、スキャンを始めます。
image.png
実行スコープはそのままにして、実行をクリック。
image.png

8. ジョブ監視画面に自動で遷移するので、しばらく待って右上のリフレッシュボタンで進捗を確認。
image.png

結果の確認

  1. スキャンした結果を確認。
    CDGCの画面を呼出し、該当のカタログリソースが閲覧できることを確認。
    image.png
  2. カラムの詳細画面を確認。
    ご自身のデータにより表示する内容も変わるのですが、こちらで電話番号のフォーマットパターンを確認できます。
    image.png

Tips

  • プロファイリングに失敗する場合、ナレッジベース(KB)を参照し、エラーメッセージから検索を実施して下さい。
  • Amazon別製品、Google製品とAzure製品等のスキャン方法については別途、記事にする予定です。

参考文献

14
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
14
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?