はじめに
はじめまして。 NTTデータ デザイン&テクノロジーコンサルティング事業本部 デジタルテクノロジー&データマネジメントユニット の nttd-nagano です。
Informatica(インフォマティカ) のクラウドデータマネジメントプラットフォームとして、「Intelligent Data Management Cloud」(※1。以下IDMCと記載)というものがあります。
今回は、その「IDMC」のうち、
データカタログソリューション「Cloud Data Governance and Catalog」 (※2。以下CDGCと記載)にてデータを検索する際に 便利な検索クエリ を紹介いたします。
※1. 略称はIDMC。旧称はIICS。クラウドデータマネジメントプラットフォーム。以下IDMCと記載。
※2. 略称はCDGC。データガバナンスとデータカタログを統合したas-a-Serviceソリューション。以下CDGCと記載。
データカタログの概要およびインフォマティカの「CDGC」の概要
「データカタログ」とは何であり、どんな利点があるのか 、
データカタログソリューション 「CDGC」とは何であり、どんな利点があるのか は、
「 InformaticaのデータカタログサービスCDGCにてAIを使ってデータ品質を可視化してみた(前編) 」 に記載いたしましたので、よろしければご覧ください。
「CDGC」の検索ボックス
さて、本記事の本題です。
「CDGC」には検索用の入力欄(検索ボックス)があり、 ビジネスアセット(ビジネス用語など)およびテクニカルアセット(テーブル、カラムなど)を検索するためのキーワードを入力できます。
単純に単語で検索した後に左ペインのフィルタで絞り込めるほか、 少し複雑なフレーズ(検索クエリ)を書いて、あらかじめ絞り込むこともできます。
「CDGC」を使い始めた当初はフィルタを使うことになるかと思いますが、「CDGC」に慣れてきたら、あらかじめ絞り込めるこの機能は便利かと思います。
なお、 検索の際にはもちろん日本語を使うこともできます。
ビジネス用語やシステムなどのビジネスアセット(※3)の名称や説明が日本語で書かれていれば、ヒットします。
また、日本語で定義したビジネスアセットをあらかじめテーブルやカラムなどのテクニカルアセット(※4)に紐づけておけば、テクニカルアセットもヒットします。
ただし、2023年12月現在は、前述の「複雑な検索クエリ」全体を日本語で組み立てることはできません。
たとえば、 「マイナンバー」というビジネス用語を紐づけたカラムを見つけたい場合は、 columns related to business term 'マイナンバー'
のような検索クエリを組み立てることになります。
検索クエリを組み立てる際に使用できるキーワード
検索クエリとは、検索のためのフレーズのことです。 「CDGC」の画面上部の検索ボックスに入力します。
検索ボックスをクリックすると、検索クエリの履歴が表示されます。また、 検索語を入力し始めると、検索クエリ候補がインテリジェントにサジェストされます。
この検索クエリを組み立てる際に使用できるキーワードを、次の表に示します。
キーワード | 意味 |
---|---|
all assets |
すべてのアセット |
business asset |
ビジネスアセット |
domain |
ドメインアセット |
subdomain |
サブドメインアセット |
business term |
ビジネス用語アセット |
metric |
メトリックアセット |
system |
システムアセット |
data set |
データセットアセット |
ai model |
AIモデルアセット |
process |
プロセスアセット |
policy |
ポリシーアセット |
dq template |
データ品質ルールテンプレートアセット |
dq occurrence |
データ品質ルールオカレンスアセット |
technical asset |
テクニカルアセット |
catalog source |
カタログソースアセット |
table |
テーブルアセット |
view |
ビューアセット |
column |
カラムアセット |
filesystem |
ファイルシステムアセット |
folder |
フォルダアセット |
file |
ファイルアセット |
technical data set |
テクニカルデータセットアセット |
data element |
データエレメントアセット |
data sources |
データソースアセット |
bi report |
Tableauワークシートアセットなど |
data classification |
データ分類アセット |
data element classification |
データエレメントデータ分類 |
data entity classifications |
データエンティティデータ分類 |
rating |
アセットの評価 |
comment |
アセットのコメント |
詳細は公式ドキュメントの Synonyms used in search queries をご覧ください。
検索クエリを組み立てる際に使用できる表現
次に、前述のキーワードとともに使用できる表現を、次の表に示します(一部のみ掲載)。
表現 | 説明 | 検索例 |
---|---|---|
' '
|
複数の単語からなる文字列を検索したい場合は、全体をシングルクォーテーションで囲みます。 | Metric 'Net Profit' |
, |
複数の検索クエリを区切るにはカンマを使用します。 | domain '顧客データ', subdomain '氏名' |
* |
部分一致のためにワイルドカードを使用できます。 | business terms with 'phone num*' |
with キーワード、 without キーワード |
アセット内の属性が特定の値であるか、あるいは、特定の文字列を含むかを検索するには、アセットタイプとともに with キーワードを使用します。 |
business terms with description '利益' 、 business terms without description '利益'
|
which are キーワード、 which are not キーワード |
キーワード which are を使用すると、チェックボックスフィールドを持ち値が有効であるアセットを検索することができます。例えば、「重要なデータ要素」(Critical Data Element。「CDE」とも略される)オプションが有効または無効に選択されているアセットを検索できます。 |
Business terms which are Critical Data Element 、 Business terms which are not Critical Data Element
|
in キーワード |
キーワード in に続けてアセットを指定すると、そのアセットの子であるアセットを検索できます。 |
business terms in domain '財務*' |
related to キーワード、 not related to キーワード |
キーワード related to に続いてアセットを指定すると、そのアセットに関連するアセット(リレーション(※6)を持っているアセット)を検索できます。 |
columns related to business terms 、 columns not related to business terms
|
※6. 「CDGC」においては、アセット同士の関係性が「リレーション」として表示されます。たとえば、次のようなリレーションがあります。
- テーブルとそのカラムの間のリレーション
- ファイルとそのフィールドの間のリレーション
- ビジネス用語ドメインとそれに属すビジネス用語の間のリレーション
- ビジネス用語とそのビジネス用語を紐づけられたテーブルのリレーション
- ビジネス用語とそのビジネス用語を紐づけられたカラムのリレーション
検索クエリの例
では、実際にどんな検索クエリを組み立てることができるのか、見てみましょう。
テクニカルアセットに関する検索クエリの例
「CDGC」におけるテクニカルアセットとは、テーブル、テーブルのカラム、ファイル、ファイルのフィールドなどです。
テクニカルアセットに関する検索クエリの例は次の通りです。
検索クエリ | どんな検索をするか |
---|---|
catalog source Snowflake* |
「SNOWFLAKE」で始まるすべてのカタログソースアセットを表示する。 |
catalog sources with resource type 'Amazon S3' |
カタログソースタイプ「Amazon S3」のすべてのカタログソースアセットを表示する。 |
tables in catalog source Databricks* |
「DATABRICKS」で始まるカタログソースタイプのすべてのテーブルを |
tables in schema ORACLE_HR* |
「ORACLE_HR」で始まるスキーマ内のすべてのテーブルを表示する。 |
table CUST* |
「CUST」で始まるすべてのテーブルを表示する。 |
tables with Age |
「Age」というカラムを持つすべてのテーブルを表示する。 |
tables which are profiled |
プロファイリング済みのすべてのテーブルを表示する。 |
tables which are not profiled |
プロファイリング済みでないすべてのテーブルを表示する。 |
columns Credit* |
「Credit」で始まるすべてのカラムを表示する。 |
columns related to business term '電話番号' |
「電話番号」という名前のビジネス用語アセットに関連するすべてのカラムを表示する。 |
columns related to data classification 'マイナンバー' |
「マイナンバー」という名前のデータ分類に関連するすべてのカラムを表示する。 |
(columns which are profiled and in catalog source Oracle*) related to data classification 'PII' |
「ORACLE」で始まるカタログソース内にあり、データ分類「PII」に関連する、プロファイリング済みのすべてのカラムを表示する。 |
file Customer* |
「Customer」で始まるすべてのファイルを表示する。 |
fields |
すべてのフィールドを表示する。 |
data elements related to (business term '顧客ID', '顧客名') |
「顧客ID」と「顧客名」という名前のビジネス用語アセットに関連するすべてのデータエレメント(テーブルの場合のカラム、ファイルの場合のフィールド)を表示する。 |
bi reports related to policy GDPR* |
「GDPR」で始まるポリシーアセットに関連するすべてのBIレポート(Tableauワークブックなど)を表示する。 |
bi report 'Quarterly Sales' |
「Quarterly Sales」という名前のすべてのBIレポートを表示する。 |
bi reports with stakeholder @<username> |
「関係者」フィールドにユーザー名またはユーザーグループ名が含まれるすべてのBIレポートを表示する。 |
Tableau Workbook Book* |
「Book」で始まるすべてのTableauワークブックアセットを表示する。 |
ビジネスアセットに関する検索クエリの例
「CDGC」におけるビジネスアセットとは、ビジネス用語、システム、ポリシーなどです。
ビジネスアセットに関する検索クエリの例は次の通りです。
検索クエリ | どんな検索をするか |
---|---|
business term '電話番号' |
「電話番号」という名前のビジネス用語アセットを表示する。 |
business term 'phone_number*' |
「Phone Number」、「Phone_Number」、「Phone-Number」という名前のすべてのビジネス用語アセットを表示する。 |
business terms without description |
「説明」フィールドが空のすべてのビジネス用語アセットを表示する。 |
business terms which are critical data element |
「重要なデータ要素」(Critical Data Element。CDEとも略される)フィールドが選択されたすべてのビジネス用語アセットを表示する。 |
business terms in domain '財務*' |
「財務」という名前で始まるドメインアセットの子であるすべてのビジネス用語アセットを表示する。 |
business terms related to policy 'セキュリティポリシー' |
「セキュリティポリシー」という名前のポリシーアセットに関連するすべてのビジネス用語アセットを表示する。 |
domains, business terms |
すべてのドメインアセットとすべてのビジネス用語アセットを表示する。 |
all in domain '人事*' |
「人事」で始まるドメインアセットに含まれるすべてのアセットを表示する。 |
domains containing business term '電子メール' |
「電子メール」という名前のビジネス用語アセットと親子関係を持つすべてのドメイン アセットを表示する。 |
metric EBITDA |
「EBITDA」という名前のすべてのメトリックアセットを表示する。なお、「EBITDA」とは「Earnings Before Interest, Taxes, Depreciation and Amortization」の略語である。企業価値評価の指標であり、利払い前・税引き前・減価償却前利益のこと。 |
system CRM* |
「CRM」で始まるすべてのシステムアセットを表示する。 |
business terms with stakeholder @<username> |
「関係者」 フィールドにユーザー名またはユーザーグループ名を持つすべてのビジネス用語アセットが表示されます。 |
business terms without stakeholder |
「関係者」 フィールドが空のすべてのビジネス用語アセットを表示します。 |
business term created by @<username> |
「作成者」 フィールドにユーザー名またはユーザーグループ名が含まれるすべてのビジネス用語アセットを表示します。 |
business term modified by @<username> |
「更新者」フィールドにユーザー名またはユーザーグループ名が含まれるすべてのビジネス用語アセットを表示します。 |
systems with stakeholder @<username> |
「関係者」 フィールドにユーザー名またはユーザーグループ名を持つすべてのシステムアセットが表示されます。 |
business terms with lifecycle Draft |
「ライフサイクル」フィールドが「ドラフト」ステータス(下書き状態)であるすべてのビジネス用語アセットを表示する。 |
all where lifecycle is not Published |
「ライフサイクル」フィールドが「パブリッシュ済み」ステータス(他者にも公開されている状態)でないすべてのアセットを表示する。 |
Assets with Lifecycle (Draft, 'In Review') |
「ライフサイクル」フィールドが「ドラフト」または「レビュー中」ステータスであるすべてのアセットを表示する。 |
all related to business term '個人情報' |
「個人情報」という名前のビジネス用語アセットに関連するすべてのアセットを表示する。 |
business terms related to data elements |
データエレメント(テーブルの場合のカラム、ファイルの場合のフィールド)に関連するすべてのビジネス用語アセットを表示する。 |
business terms not related to data elements |
データエレメントに関連しないすべてのビジネス用語アセットを表示する。 |
(Policy related to (System DWH)) related to (System ERP) |
「DWH」という名前のシステムアセットに関連し、「ERP」という名前のシステムアセットに関連するすべてのポリシーアセットを表示する。 |
カスタム属性に関する検索クエリの例
「CDGC」ではアセットをカスタマイズして「カスタム属性」を追加することができます。
カスタム属性に関する検索クエリの例は次の通りです。
検索クエリ | どんな検索をするか |
---|---|
assets with <text custom attribute> '営業部' |
テキストデータタイプのカスタム属性を持ち、その値が「営業部」であるすべてのアセットを表示する。 |
assets with <numeric custom attribute> equals 30 |
数値データ型のカスタム属性を持ち、その値が「30」であるすべてのアセットを表示する。 |
assets with <numeric custom attribute> greater than 80 |
数値データ型のカスタム属性を持ち、その値が「80」より大きいすべてのアセットを表示する。 |
assets with <numeric custom attribute> between 50 and 60 |
数値データ型のカスタム属性を持ち、その値が「50」~「60」の範囲にあるすべてのアセットを表示する。 |
assets <date type custom attribute> within last 7 hours |
日付タイプのカスタム属性があり、その値が過去7時間以内のものであるすべてのアセットを表示する。 |
assets <date type custom time attribute> within last 4 days |
日付タイプのカスタム属性があり、その値が過去4日間以内であるすべてのアセットを表示する。 |
assets which are <boolean type custom attribute> |
チェックボックスタイプのカスタム属性を持ち、その値が有効であるすべてのアセットを表示する。 |
コラボレーションに関する検索クエリの例
「CDGC」にはほかのユーザーとコラボレーションするための機能があり、アセットに対してコメントしたり、星で評価することなどできます。
コラボレーションに関する検索クエリの例は次の通りです。
検索クエリ | どんな検索をするか |
---|---|
all with rating equals 5 |
5つ星の評価を持つすべてのアセットを表示する。 |
all with rating between 1 and 5 |
1つ星から5つ星の評価を持つすべてのアセットを表示する。 |
all with rating greater than 3 |
3つ星以上の評価を持つすべてのアセットをすべて表示する。 |
all rated within last 3 days |
過去3日以内に評価されたすべてのアセットを表示する。 |
all commented within last 2 days |
過去2日以内のコメント付きのすべてのアセットを表示する。 |
all certified within last 10 days |
過去10日間のすべての認定アセットを表示する。 |
all rated by @<username> |
ユーザー名またはユーザーグループ名が評価をしたすべてのアセットを表示する。 |
all commented by @username |
ユーザー名またはユーザーグループ名がコメントをしたすべてのアセットを表示する。 |
all certified by @username |
「更新者」フィールドにユーザー名またはユーザーグループ名を持つすべての認証アセットを表示する。 |
tables having ratings |
すべての評価付きテーブルアセットを表示する。 |
tables not having ratings |
評価なしのすべてのテーブルアセットを表示する。 |
files having comments |
すべてのコメント付きファイルアセットを表示する。 |
データ分類に関する検索クエリの例
「CDGC」におけるデータ分類とは、データの機能的な意味に基づいてデータを識別し、関連するカテゴリーに整理する処理です。
たとえば、あらかじめデータ分類ルールを作成しておけば、データに含まれるクレジットカード番号を識別し、カラムに「クレジットカード」というデータ分類を付与することができます。
データ分類に関する検索クエリの例は次の通りです。
検索クエリ | どんな検索をするか |
---|---|
classifications with sensitivity high |
機密度が高であるすべてのデータ分類を表示する。 |
classification with sensitivity in (High, Medium) |
機密度が高および中であるすべてのデータ分類を表示する。 |
assets related to classifications with sensitivity high |
機密度が高であるデータ分類に関連付けられたすべてのアセットを表示する。 |
データ品質ルールオカレンスに関する検索クエリの例
一般的に、データの価値というものは、単に膨大なデータを集めればそこから生まれてくるのではなく、確かであり、信頼できるデータ(=高品質なデータ)からこそ生まれうるのだということが言えるかと思います。
「CDGC」には、データ品質があらかじめ設定した基準を満たしているかを可視化する機能があります。
「CDGC」におけるデータ品質分析の詳細は、 「 InformaticaのデータカタログサービスCDGCにてAIを使ってデータ品質を可視化してみた(前編) 」 および 「 InformaticaのデータカタログサービスCDGCにてAIを使ってデータ品質を可視化してみた(後編) 」 をご覧ください。
「CDGC」では、データの品質分析処理が実行されるたびに「データ品質ルールオカレンス」が作成されます。
データ品質ルールオカレンスに関する検索クエリの例は次の通りです。
検索クエリ | どんな検索をするか |
---|---|
dq occurrence with threshold result 'Good' and related to columns related to table CUSTOMER |
右記の条件のすべてのデータ品質ルールオカレンスを表示する。(1)データ品質スコアのステータスが「正常」である。(2)「CUSTOMER」テーブルアセットに属するカラムに関連している。 |
おわりに
以上、「InformaticaのデータカタログCDGCの便利な検索クエリを紹介する」でした。
「CDGC」の検索クエリを使うと詳細な絞り込みができて便利であることを感じていただけたのではないでしょうか。
「CDGC」の使い心地については、公式サイトの「 Exprience Louge 」にて、体験していただけます。 ぜひご体験ください。
仲間募集
NTTデータ デザイン&テクノロジーコンサルティング事業本部 では、以下の職種を募集しています。
1. クラウド技術を活用したデータ分析プラットフォームの開発・構築(ITアーキテクト/クラウドエンジニア)
クラウド/プラットフォーム技術の知見に基づき、DWH、BI、ETL領域におけるソリューション開発を推進します。
https://enterprise-aiiot.nttdata.com/recruitment/career_sp/cloud_engineer
2. データサイエンス領域(データサイエンティスト/データアナリスト)
データ活用/情報処理/AI/BI/統計学などの情報科学を活用し、よりデータサイエンスの観点から、データ分析プロジェクトのリーダーとしてお客様のDX/デジタルサクセスを推進します。
https://enterprise-aiiot.nttdata.com/recruitment/career_sp/datascientist
3.お客様のAI活用の成功を推進するAIサクセスマネージャー
DataRobotをはじめとしたAIソリューションやサービスを使って、
お客様のAIプロジェクトを成功させ、ビジネス価値を創出するための活動を実施し、
お客様内でのAI活用を拡大、NTTデータが提供するAIソリューションの利用継続を推進していただく人材を募集しています。
https://nttdata.jposting.net/u/job.phtml?job_code=804
4.DX/デジタルサクセスを推進するデータサイエンティスト《管理職/管理職候補》
データ分析プロジェクトのリーダとして、正確な課題の把握、適切な評価指標の設定、分析計画策定や適切な分析手法や技術の評価・選定といったデータ活用の具現化、高度化を行い分析結果の見える化・お客様の納得感醸成を行うことで、ビジネス成果・価値を出すアクションへとつなげることができるデータサイエンティスト人材を募集しています。ソリューション紹介
Trusted Data Foundationについて
~データ資産を分析活用するための環境をオールインワンで提供するソリューション~
https://enterprise-aiiot.nttdata.com/tdf/
最新のクラウド技術を採用して弊社が独自に設計したリファレンスアーキテクチャ(Datalake+DWH+AI/BI)を顧客要件に合わせてカスタマイズして提供します。
可視化、機械学習、DeepLearningなどデータ資産を分析活用するための環境がオールインワンで用意されており、これまでとは別次元の量と質のデータを用いてアジリティ高くDX推進を実現できます。
TDFⓇ-AM(Trusted Data Foundation - Analytics Managed Service)について
~データ活用基盤の段階的な拡張支援(Quick Start) と保守運用のマネジメント(Analytics Managed)をご提供することでお客様のDXを成功に導く、データ活用プラットフォームサービス~
https://enterprise-aiiot.nttdata.com/service/tdf/tdf_am
TDFⓇ-AMは、データ活用をQuickに始めることができ、データ活用の成熟度に応じて段階的に環境を拡張します。プラットフォームの保守運用はNTTデータが一括で実施し、お客様は成果創出に専念することが可能です。また、日々最新のテクノロジーをキャッチアップし、常に活用しやすい環境を提供します。なお、ご要望に応じて上流のコンサルティングフェーズからAI/BIなどのデータ活用支援に至るまで、End to Endで課題解決に向けて伴走することも可能です。
NTTデータとInformaticaについて
データ連携や処理方式を専門領域として10年以上取り組んできたプロ集団であるNTTデータは、データマネジメント領域でグローバルでの高い評価を得ているInformatica社とパートナーシップを結び、サービス強化を推進しています。
https://enterprise-aiiot.nttdata.com/service/informatica
NTTデータとTableauについて
ビジュアル分析プラットフォームのTableauと2014年にパートナー契約を締結し、自社の経営ダッシュボード基盤への採用や独自のコンピテンシーセンターの設置などの取り組みを進めてきました。さらに2019年度にはSalesforceとワンストップでのサービスを提供開始するなど、積極的にビジネスを展開しています。
これまでPartner of the Year, Japanを4年連続で受賞しており、2021年にはアジア太平洋地域で最もビジネスに貢献したパートナーとして表彰されました。
また、2020年度からは、Tableauを活用したデータ活用促進のコンサルティングや導入サービスの他、AI活用やデータマネジメント整備など、お客さまの企業全体のデータ活用民主化を成功させるためのノウハウ・方法論を体系化した「デジタルサクセス」プログラムを提供開始しています。
https://enterprise-aiiot.nttdata.com/service/tableau
NTTデータとAlteryxについて
Alteryx導入の豊富な実績を持つNTTデータは、最高位にあたるAlteryx Premiumパートナーとしてお客さまをご支援します。
導入時のプロフェッショナル支援など独自メニューを整備し、特定の業種によらない多くのお客さまに、Alteryxを活用したサービスの強化・拡充を提供します。
NTTデータとDataRobotについて
NTTデータはDataRobot社と戦略的資本業務提携を行い、経験豊富なデータサイエンティストがAI・データ活用を起点にお客様のビジネスにおける価値創出をご支援します。
NTTデータとSnowflakeについて
NTTデータではこれまでも、独自ノウハウに基づき、ビッグデータ・AIなど領域に係る市場競争力のあるさまざまなソリューションパートナーとともにエコシステムを形成し、お客さまのビジネス変革を導いてきました。
Snowflakeは、これら先端テクノロジーとのエコシステムの形成に強みがあり、NTTデータはこれらを組み合わせることでお客さまに最適なインテグレーションをご提供いたします。