4
1

はじめに

インフォマティカが提供する、 CDGC(データガバナンス&カタログ)を使って、File Systemからメタデータを取得(スキャン)するためのガイドです。
※2023/10時点の情報を元にしています。

image.png

image.png

事前準備

CDGCがセットアップ済みであり、メタデータコマンドセンターのメニューにアクセスできるライセンス、およびユーザロール、ユーザである事を確認して下さい。こちらのナレッジベースより手順をご確認下さい。

前提

ファイル システム カタログ ソースを使用して、Windows または Linux マシンにあるファイルからメタデータをカタログに抽出します。
2通りの抽出方法があり、①ローカル ファイルシステム・プロトコルを使用してローカル・マシン(Secure Agentがインストールされているマシン)にあるファイルからメタデータをインポートするか、②リモート ファイルシステム・プロトコルを使用してリモートの Windows マシンにあるファイルからメタデータをインポートできます。

スキャン対象

ファイル システム カタログ ソースを使用して、次のファイル タイプとそのパーティションからメタデータを抽出できます:

  • AVRO: シングル・パーティション、マルチ・パーティション、スキーマ・マージ
  • CSV: シングル・パーティション、マルチ・パーティション、スキーマ・マージ
  • JSON: シングル・パーティション
  • Parquet: 単一パーティション、複数パーティション、スキーマ・マージ

以下のMicrosoft Excelファイル・タイプからメタデータを抽出できます:

  • 拡張子XLSのExcel 97-2003ワークブック
  • 拡張子がXLSXのExcelワークブック
  • 拡張子XLSMのExcelマクロ対応ワークブック

2023年7月リリースより、Microsoft Excelファイルからのメタデータ抽出がプレビュー可能になりました。プレビュー機能は評価目的でサポートされていますが、本番環境または本番環境への移行を予定している環境ではサポートされていません。Informatica は、本番環境向けの次期リリースにプレビュー機能を含める予定ですが、市場や技術状況の変化に応じて、プレビュー機能を提供しない場合もあります。

スキャン設定

詳細のステップは、マニュアルも合わせて参照して下さい。

1. メニューから「メタデータコマンドセンター」を選択
chrome_1tgmiMYCUF.png

2. メタデータコマンドセンターから「新規」を選択
chrome_w8lflLEgjP.png

3. カタログソースから「ファイルシステム」を選択
image.png

4. File Systemへの接続情報を選択しますが、上記の通り、2パターンのプロトコルを選択できます。
image.png

  • ① ローカルファイルシステム

    • ローカル・マシン(Secure Agentのインストールマシン上)にあるファイルからメタデータをインポートするために利用します。

    • メタデータをカタログにインポートするSecure Agentマシン上における、ディレクトリへの絶対パスを指定します。

    • 下記の例の場合、実体のファイル群は、Secure Agentと同じマシンのローカルにあることを確認し、絶対パスを取得します
      image.png

    • パスに、絶対パスを指定します。
      image.png

  • ② リモートファイルシステム

    • リモートWindowsマシンにあるファイルからメタデータをインポートするために利用します
    • メタデータをカタログにインポートする、ネットワークまたは共有パスを指定します。
    • 下記の例の場合、Windows上で共有設定がされたフォルダ内に実体のファイル群があることが確認できます。
      image.png
    • パスに、ネットワークまたは共有パスを指定します。
      image.png
    パラメータ 説明
    パス パス メタデータをカタログにインポートするネットワークまたは共有パスを指定します。例: \SharedPath\test_files.
    ホスト Windows マシンのホスト名または IP アドレスを指定します。
    ユーザー Windows マシンにアクセスするためのユーザー名を入力します。
    パスワード Windows マシンにアクセスするためのパスワードを入力します。

5. ランタイム接続から利用するSecure Agentを選択、必要に応じてフィルタによる絞り込みや構成パラメータを設定します。
image.png

構成パラメータの設定値は以下の通りです。

パラメータ 説明
1行目を区切りファイルのヘッダとして使用 区切りファイルのヘッダーとして最初の行を使用する、またはヘッダーを自動的に検出する場合は、以下のオプションのいずれかを選択します
はい : 最初の行を区切りファイルのヘッダーとして使用します。
いいえ : 区切りファイルのヘッダーを自動的に検出します。
拡張子のないファイルを次のように扱う 拡張子のないファイルを識別するには、次のオプションのいずれかを選択します
Parquet
Avro
JSON
ファイル区切り文字の入力 メタデータを抽出するファイルが、以下の区切り文字のリスト以外の区切り文字を使用している場合は、ファイルの区切り文字を指定します:
カンマ(,)
横タブ( \t)
セミコロン(;)
コロン(:)
パイプ記号(|)

区切り記号はシングルクォーテーションで囲みます。例えば、'$'。複数の区切り文字を区切るにはコンマを使用します。
パーティション検出時に除外するファイル パーティション検出時に除外するファイルの正規表現。複数の正規表現を指定する場合はカンマで区切り、それぞれの正規表現をニ重引用符で囲んでください。
例 : ".*json","Customer.csv","Parquet.*"

7.「関連付け」「スケジュール」は必要に応じて設定しますが、今回はすぐにスキャンを実施したいため、「保存」後に、「実行」をクリックし、実行スコープを確認して、実行を開始
image.png

8. ジョブ監視画面に自動で遷移するので、しばらく待ってステータスが完了した事を確認
image.png

結果の確認

  • 取得したアセットの一覧を表示
    CDGCの画面を呼出し、該当のカタログリソースが閲覧できることを確認する
    image.png

    image.png

Tips

サブディレクトリ、サブフォルダもスキャンすることは可能となります。
ただし、それらの中にファイルが存在しない場合は、データカタログ上には表示されません。2023年10月時点での仕様

下記の例だと、non-fileディレクトリの中にはファイルが何もありません
image.png

データカタログ上では、non-fileディレクトリ以外が表示されています。
image.png

参考文献

4
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
1