インフォマティカのIntelligent Data Management Cloud(以下、IDMCと書きます)には、データマネジメントに必要な機能が揃っています。この記事では、その中でもCloud Data Profilingを取り上げます。
Cloud Data Profilingは、その名前の通りデータをプロファイリングする機能です。どのようにデータをプロファイリングできるのかをざっと見てみましょう。
データプロファイリングの大まかな流れ
Cloud Data Profilingでデータプロファイリングを実行するときは以下のよう流れになります。
- プロファイリング定義(定義の名前や、どんなデータをプロファイリングするか等)を作成する
- プロファイリングを実行する
- プロファイリング結果を確認する
- さらにデータを細かく確認する必要がある場合、プロファイリング定義を変更する
- 2~4を繰り返す
実際には一度プロファイリングして終わりとなることはほとんどなくて、何度もプロファイリングをしながらデータ品質上の問題を見つけていくことになると思います。
なお、この記事では1~3について以下で説明します。
プロファイリングの定義
プロファイリングをするためには最初に定義を作成する必要があります。以下、手順です。
IDMCにログインし、マイサービスで「データプロファイリング」をクリックします。
「アセットの詳細」では、定義するプロファイリングの名前や保存先を設定します。
「ソースの詳細」では、プロファイリングするデータについて設定します。
この記事では、テスト用に作成したCSVファイルを使用しています。
ソースオブジェクトがファイルの場合、「形式オプション」というボタンが表示され、ファイルの形式を設定できます。ローカルのフラットファイルの場合は以下のような設定が可能です。
「プロファイル設定」では、データをサンプリングしてプロファイルするか、また、プロファイリング結果をドリルダウンするかを設定します。
フラットファイルの場合、サンプリングはできません。下図はフラットファイルを指定したときの画面なので「すべての行」しか選択できないようになっています。
次に、ドリルダウンですが、プロファイリング結果を確認するときによく使うので特に理由がなければ選択しておきましょう。ドリルダウンが何なのかは記事の後半で書きます。
最後にプロファイリングするカラムを選択します。全てカラムをプロファイリングしたいので、下図では全てのカラムにチェックを入れています。
定義はこれで終了です。もちろん、もっと細かい設定項目はあるのですが、これだけでもプロファイリングは実行可能です。
定義作成が終了したら、画面上部にある「保存」ボタンをクリックして定義を保存します。
その後、「実行」ボタンをクリックするとプロファイリングが開始されます。
プロファイリング結果の確認
データ量にもよりますが、プロファイリングの実行には少し時間がかかるので終了するまで待ちましょう。実行状況は「マイジョブ」で確認できます。
「マイジョブ」で処理が終了したことを確認したら、先ほど定義したプロファイリングをクリックして再び開きます。
プロファイリング定義が表示されると、以下のような表示がありますので、「Click here to update」をクリックします。
今回プロファイリングしたのはテスト用に作成した疑似顧客データです。人名や電話番号は全て架空のものです。
画面いっぱいにグラフや表が表示されていますが、順番に確認していきます。
サマリビュー
画面左上がサマリビューです。横に長い表なので、右端まで見るためにはスクロールさせてください。
ここには以下の項目が表示されています。
- カラム
- 値の分布
- NULLの行のパーセンテージ
- NULLの行の数
- 個別の行のパーセンテージ
- 個別の行の数
- 重複のある行のパーセンテージ
- 重複のある行の数
- パターンの数
- 上位のパターンのパーセンテージ
- 最小長
- 最大長
- 最小値
- 最大値
- 空白の行の数
- 空白の行のパーセンテージ
「個別の行」というのがわかりにくいですが、これは値が重複していない行のことです。
NULL、個別の行、重複のある行の割合をグラフにしたのが「値の分布」のグラフです。NULLは赤、個別の行は緑、重複のある行は黒で表現されています。
また、サマリビューでカラム名をクリックすると、そのカラムのヒストグラムが表示されます。
詳細とルール
「トレンド」は、何回かプロファイリングをしないと意味のある表示とはならないのですが、NULLの行、個別の行、重複の行の割合の変化を示しています。
「データ型」は推測されたデータ型です。「文書化されたデータ型」という行がありますが、これはDBなどであれば実際に定義されているデータ型が表示されます。今回はCSVファイルだったので、nstring(255)となっています。
「パターン」は、出現するデータのパターンの割合です。9は数字、Xは文字の意味で、9(4)
は数字4桁のことです。数字も文字も3桁までは999
やXXX
と表示されますが、4桁以上は桁数がカッコ内に書かれます。
「もっとも頻度の高い値」は言葉の通りです。
なお、上の図にはありませんが、カラムが数値型の場合は、このビューに平均、合計、標準偏差なども表示されます。
※今回はルールを使用していないので、ルールについては割愛します。
データプレビュー
画面下がデータプレビューです。ここには実際のデータが最大10行表示されます。
ドリルダウン
先ほど、カラムのヒストグラムを表示したときに各値の左端にチェックボックスがついていたのにお気づきでしょうか?また、詳細とルールでも、データ型とパターンには左端にチェックボックスがありました。
このチェックボックスはドリルダウンのときに使用します。チェックボックスにチェックを入れると、データプレビューに「適用」ボタンが表示されます。この「適用」ボタンをクリックすると、チェックを入れた条件に合致する行がデータプレビューに表示されます(これをドリルダウンと言います)。
インサイト
「インサイト」タブを開くと、AIが品質上の問題と検出した内容が表示されます。ここに出力された内容に対応するだけで品質の問題が全て解消されるわけではありませんが、参考として見ておくと良いと思います。
Excelファイルへエクスポート
画面右上のメニューアイコンをクリックして、「プロファイル結果のエクスポート」をクリックするとExcelファイルにエクスポートすることができます。
エクスポートしたファイルを開くといくつかのシートに分かれてプロファイリング結果が出力されています。
まとめ
データプロファイリングをやってみました。画面の指示に従って入力していっただけですが、ちゃんとデータを調べてくれていました。SQLやPythonのコードを書くのではなくGUIでできるのは便利ですね。Cloud Data Profilingを使うと今までよりも楽にデータプロファイリングができそうです。
(2023/03/03 追記)
続編を書きました。
仲間募集中!
NTTデータ Data&Intelligence事業部 では、以下の職種を募集しています。
1. 「クラウド技術を活用したデータ分析プラットフォームの開発・構築(ITアーキテクト/クラウドエンジニア)」の募集
クラウド/プラットフォーム技術の知見に基づき、ITアーキテクトまたはPMとして、DWH、BI、ETL領域における、ソリューション開発の推進や、コンサルティング工程のシステムグランドデザイン策定時におけるアーキテクト観点からの検討を行う人材を募集しています。2. AI/データ活用を実践する「クラウド・ソリューションアーキテクト」
AI/データ活用を実践する「クラウド・ソリューションアーキテクト」として、クラウド先進テクノロジーを積極活用し、お客様のビジネス価値創出活動を実践。AI/データ活用の基本構想立案コンサルティングからクラウドプラットフォーム提供・活用を支援しています。お客様のAI・データ活用を支援するクラウド・ソリューション提案、アーキテクチャ設計・構築・継続活用支援(フルマネージドサービス提供)、および最新クラウドサービスに関する調査・検証で、クラウド分析基盤ソリューションのメニュー拡充を実施する人材を募集します。また、取り扱う主なソリューションについては、以下のページも参照ください。
ソリューション紹介
1. NTTデータとInformaticaについて
データ連携や処理方式を専門領域として10年以上取り組んできたプロ集団であるNTTデータは、データマネジメント領域でグローバルでの高い評価を得ているInformatica社とパートナーシップを結び、サービス強化を推進しています。2. Trusted Data Foundationについて
~データ資産を分析活用するための環境をオールインワンで提供するソリューション~https://enterprise-aiiot.nttdata.com/tdf/
最新のクラウド技術を採用して弊社が独自に設計したリファレンスアーキテクチャ(Datalake+DWH+AI/BI)を顧客要件に合わせてカスタマイズして提供します。
可視化、機械学習、DeepLearningなどデータ資産を分析活用するための環境がオールインワンで用意されており、これまでとは別次元の量と質のデータを用いてアジリティ高くDX推進を実現できます。