はじめに
インフォマティカが提供する、 CDGC(データガバナンス&カタログ)を使って、Excelからメタデータを取得(スキャン)するためのガイドです。
自由度が高い故にフォーマットが統一できずに、非定型データになりがちなExcelのテーブル構造から、自動的にカラム情報を抽出することができます。またExcelファイル自体も様々なファイスシステム・ストレージにバラバラに配置されがちですが、メタデータをカタログ化することで、目的のExcelファイルを効率的に特定することができます。
※2023/08時点の情報を元にしています。
下記のように、プレビュー版機能ですので、サポートがないこと、ご紹介している機能が変更される可能性があることなどをご了承下さい。
Microsoft Excel ファイルのメタデータ抽出はプレビューで利用可能です。プレビュー機能は評価目的でサポートされていますが、本番環境または本番環境への移行を予定している環境ではサポートされていません。Informatica は、本番環境向けの次期リリースにプレビュー機能を含める予定ですが、市場や技術状況の変化に応じて、プレビュー機能を提供しない場合もあります。詳細については、Informatica グローバルカスタマーサポートまでお問い合わせください。
Excel のスキャンのポイント
- ワークブック、ワークシート、カラムを取得可能で、特にカラムについては、Excel上で任意に定義されたテーブル構造から自動的にカラムを特定・抽出することができます。
- 日本語のファイル、ワークシート、カラム等のオブジェクトにも対応しています
- 社内外の各種ファイルシステム・ストレージに分散されがちで、かつテーブル定義が非定型である可能性が高いExcelを自動的に検出・整理し、カタログ化することができます。
事前準備
CDGCがセットアップ済みであり、メタデータコマンドセンターのメニューにアクセスできるライセンス、およびユーザロール、ユーザである事を確認して下さい。こちらのナレッジベースより手順をご確認下さい。
前提
以下のソースシステムに含まれるMicrosoft Excelファイルからメタデータを抽出できます。
- Amazon S3
- File System
- Google Cloud Storage
- Hadoop Distributed File System (HDFS)
- Microsoft Azure Blob Storage
- Microsoft Azure Data Lake Storage Gen2
- Microsoft OneDrive
- Microsoft SharePoint Online
- Oracle Cloud Object Storage
- SFTP File System
Excel用のScannerがあるわけではなく、上記のソースシステムをスキャンする際に含まれるExcelファイルを自動的にカタログ化します
各ソースシステムの設定方法については、他のQiitaのブログ(上部のリンクをご覧ください)、およびこちらのナレッジベースをご確認下さい。
スキャン対象
以下のExcelファイルのフォーマットに対応しています
- 拡張子が XLS の Excel 97-2003 ワークブック
- 拡張子 XLSX の Excel ワークブック
- 拡張子 XLSM の Excel マクロ対応ワークブック
結果の確認
Tips
- 複数ワークシートにも対応可能ですが、1ワークシートあたり複数テーブルある場合は1つのみが取得されるような動きとなります。
- テーブル内データのプロファイリングや、CDI(IDMC ETL機能)には未対応となります。
- 上記は、今後に改善される可能性はあります。