はじめに
インフォマティカが提供する、 CDGC(データガバナンス&カタログ)を使って、File Systemからメタデータを取得(スキャン)するためのガイドです。
※2023/10時点の情報を元にしています。
事前準備
CDGCがセットアップ済みであり、メタデータコマンドセンターのメニューにアクセスできるライセンス、およびユーザロール、ユーザである事を確認して下さい。こちらのナレッジベースより手順をご確認下さい。
前提
ファイル システム カタログ ソースを使用して、Windows または Linux マシンにあるファイルからメタデータをカタログに抽出します。
2通りの抽出方法があり、①ローカル ファイルシステム・プロトコルを使用してローカル・マシン(Secure Agentがインストールされているマシン)にあるファイルからメタデータをインポートするか、②リモート ファイルシステム・プロトコルを使用してリモートの Windows マシンにあるファイルからメタデータをインポートできます。
スキャン対象
ファイル システム カタログ ソースを使用して、次のファイル タイプとそのパーティションからメタデータを抽出できます:
- AVRO: シングル・パーティション、マルチ・パーティション、スキーマ・マージ
- CSV: シングル・パーティション、マルチ・パーティション、スキーマ・マージ
- JSON: シングル・パーティション
- Parquet: 単一パーティション、複数パーティション、スキーマ・マージ
以下のMicrosoft Excelファイル・タイプからメタデータを抽出できます:
- 拡張子XLSのExcel 97-2003ワークブック
- 拡張子がXLSXのExcelワークブック
- 拡張子XLSMのExcelマクロ対応ワークブック
2023年7月リリースより、Microsoft Excelファイルからのメタデータ抽出がプレビュー可能になりました。プレビュー機能は評価目的でサポートされていますが、本番環境または本番環境への移行を予定している環境ではサポートされていません。Informatica は、本番環境向けの次期リリースにプレビュー機能を含める予定ですが、市場や技術状況の変化に応じて、プレビュー機能を提供しない場合もあります。
スキャン設定
詳細のステップは、マニュアルも合わせて参照して下さい。
4. File Systemへの接続情報を選択しますが、上記の通り、2パターンのプロトコルを選択できます。
-
① ローカルファイルシステム
-
② リモートファイルシステム
- リモートWindowsマシンにあるファイルからメタデータをインポートするために利用します
- メタデータをカタログにインポートする、ネットワークまたは共有パスを指定します。
- 下記の例の場合、Windows上で共有設定がされたフォルダ内に実体のファイル群があることが確認できます。
- パスに、ネットワークまたは共有パスを指定します。
パラメータ 説明 パス パス メタデータをカタログにインポートするネットワークまたは共有パスを指定します。例: \SharedPath\test_files. ホスト Windows マシンのホスト名または IP アドレスを指定します。 ユーザー Windows マシンにアクセスするためのユーザー名を入力します。 パスワード Windows マシンにアクセスするためのパスワードを入力します。
5. ランタイム接続から利用するSecure Agentを選択、必要に応じてフィルタによる絞り込みや構成パラメータを設定します。
構成パラメータの設定値は以下の通りです。
パラメータ | 説明 |
---|---|
1行目を区切りファイルのヘッダとして使用 | 区切りファイルのヘッダーとして最初の行を使用する、またはヘッダーを自動的に検出する場合は、以下のオプションのいずれかを選択します はい : 最初の行を区切りファイルのヘッダーとして使用します。 いいえ : 区切りファイルのヘッダーを自動的に検出します。 |
拡張子のないファイルを次のように扱う | 拡張子のないファイルを識別するには、次のオプションのいずれかを選択します Parquet Avro JSON |
ファイル区切り文字の入力 | メタデータを抽出するファイルが、以下の区切り文字のリスト以外の区切り文字を使用している場合は、ファイルの区切り文字を指定します: カンマ(,) 横タブ( \t) セミコロン(;) コロン(:) パイプ記号(|) 区切り記号はシングルクォーテーションで囲みます。例えば、'$'。複数の区切り文字を区切るにはコンマを使用します。 |
パーティション検出時に除外するファイル | パーティション検出時に除外するファイルの正規表現。複数の正規表現を指定する場合はカンマで区切り、それぞれの正規表現をニ重引用符で囲んでください。 例 : ".*json","Customer.csv","Parquet.*" |
7.「関連付け」「スケジュール」は必要に応じて設定しますが、今回はすぐにスキャンを実施したいため、「保存」後に、「実行」をクリックし、実行スコープを確認して、実行を開始
8. ジョブ監視画面に自動で遷移するので、しばらく待ってステータスが完了した事を確認
結果の確認
Tips
サブディレクトリ、サブフォルダもスキャンすることは可能となります。
ただし、それらの中にファイルが存在しない場合は、データカタログ上には表示されません。2023年10月時点での仕様
下記の例だと、non-fileディレクトリの中にはファイルが何もありません
データカタログ上では、non-fileディレクトリ以外が表示されています。