1. はじめに
以下の記事ではプロファイリングを行い、データの問題を確認しました。
何が問題なのかが判明したので、それを受けてどのようにクレンジングを行っていくのかをこの記事では見ていきたいと思います。
2. クレンジング方針の検討
まずはプロファイリング結果のおさらいです。
カラム名 | プロファイリング結果 |
---|---|
No |
NULLなし 重複なし 数値型(桁数は1~4) |
last_name first_name |
NULLなし 重複はあるが問題ない 文字列型 半角スペースや全角スペースが含まれるデータが存在する(本来、半角スペース・全角スペースは含まれていはいけない) |
phone |
NULLなし 重複なし 数値型がほとんどだが、文字列型のデータも存在する(本来は全て数値型) ハイフンと丸括弧が含まれるデータが存在する(本来、数字以外は含まれてはいけない) |
date_of_birth |
NULLあり 重複はあるが問題ない 文字列型 NULLでないデータは全てyyyy/mm/dd形式 未来の日付が入っているデータが存在する |
address |
NULLなし 重複はあるが問題ない 文字列型(桁数は3もしくは4) 都道府県名ではない値(具体的には"XXX"と"あああ")が入っているデータが存在する |
は全て問題点ですので、「No」カラム以外は何かしらクレンジングする必要があります。
クレンジングの実装方法はいくつか考えられますが、今回は以下の方針でクレンジングを行います。
カラム名 | クレンジングの実装方針 |
---|---|
No | 何もしない(クレンジング不要) |
last_name first_name |
クレンジングトランスフォーメーションを利用して、半角スペース、全角スペースを削除 |
phone | クレンジングトランスフォーメーションを利用して、ハイフンと丸括弧を削除 |
date_of_birth | 前回記事で作成したルール仕様(※1)を利用して、「有効日付」と出力されないデータは削除(※3) (「NULL」や「未来日」となるデータは削除) |
address | 前回記事で作成したルール仕様(※2)を利用して、「VALID」と出力されないデータは削除(※3) (都道府県名が正しくなくて「INVALID」となるデータは削除) |
(※1)出力される値は「有効日付」、「未来日」、「NULL」の3種類。
(※2)出力される値は「VALID」、「INVALID」の2種類。
(※3)クレンジング後のデータからは削除するが、削除したデータはエラーデータとして別ファイルに出力する。
3. クレンジング処理の作成と実行結果
3.1 事前準備(クレンジングアセットの作成)
「last_name」カラム、「first_name」カラム、「phone」カラムではクレンジングトランスフォーメーションを使いますが、そのためにはCloud Data Qualityのクレンジングアセットを作成しておく必要があります。
そのため、以下の2つのクレンジングアセットを用意します。
- 半角スペース、全角スペースを削除するクレンジングアセット(「last_name」カラムと「first_name」カラムで利用する)
- ハイフン、丸括弧を削除するクレンジングアセット(「phone」カラム用で利用する)
クレンジングアセットはマイサービスで「データ品質」を開き、続けて「新規...」、「クレンジング」をクリックすることで作成できます。
半角スペース、全角スペースを削除するクレンジングアセットの設定は以下です。
そして、ハイフン、丸括弧を削除するクレンジングアセットの設定は以下です。
事前準備はこれで終了です。
3.2 マッピングの作成
クレンジング処理というと何か特別の処理のように聞こえてしまいますが、やっていることは普通のETL処理です。そのため、クレンジング処理はCloud Data Integrationでマッピングを作成することで実現します。
マッピングを作成するためには、 マイサービスで「データ統合」を開き、続けて「新規...」、「マッピング」タブで「マッピング」をクリックします。
そして、以下のようなマッピングを作成します。
各トランスフォーメーションの概要は以下の通りです。
番号 | 説明 |
---|---|
① | クレンジング対象の疑似顧客データ。 |
② | クレンジングトランスフォーメーションで「last_name」カラム、「first_name」カラムの半角スペース・全角スペースを削除する。 |
③ | クレンジングトランスフォーメーションで「phone」カラムのハイフン・丸括弧を削除する。 |
④ | ルール仕様トランスフォーメーションで「date_of_birth」カラムの日付が未来日かどうか判定する(同時にNULLかどうかの判定も行う)。 |
⑤ | ルール仕様トランスフォーメーションで「address」カラムが正しい都道府県名かどうか判定を行う。 |
⑥ | エラー用のカラムを追加し、「date_of_birth」カラムが正しくないときは"DATE_ERROR"、「address」カラムの値が正しくない場合は"ADDRESS_ERROR"という値を入れる。 |
⑦ | エラーカラムをチェックして、エラーがなければクレンジング後データファイルに出力し、エラーがあるときはエラーデータファイルに出力する。 |
⑧ | クレンジングされたデータ。 |
⑨ | エラーと判定されたデータ。 |
3.3 実行結果の確認
マッピングを実行したところ次のような結果となりました。
エラーデータに34件出力されています。
以下はエラーデータをExcelで開いて、わかりやすいように色をつけたものです。
たしかにどれも不正なデータであることがわかります。
("DATE_ERROR"は「date_of_birth」カラムがNULLもしくは未来日となっているデータ、"ADDRESS_ERROR"は「address」カラムが不正な値となっているデータです)
人名や電話番号は全て架空のものです。
それではクレンジングされたデータも見てみましょう。
クレンジング後のデータを対象にプロファイリングを行い、正しくクレンジングされているか確認します。
どのカラムも思った通りにクレンジングされました!
4. プロファイリング再び
「3.1 事前準備(クレンジングアセットの作成)」では2つクレンジングアセットを作成しました。クレンジングアセットはプロファイリングのルールとして利用することができるので設定しておくことにします。
プロファイリングの画面を開き、半角・全角スペースを削除するクレンジングアセットを「last_name」カラム、「first_name」カラムに、ハイフン・丸括弧を削除するクレンジングアセットを「phone」カラムに設定します。
この設定を保存して、改めてプロファイリングを実施すると以下のようにクレンジングされた結果が出力されます。
下図は「first_name」カラムに半角・全角スペースを削除するクレンジングアセットを適用した結果です。
この記事では先にクレンジング処理を実施していましたが、クレンジング処理を実施する前にクレンジングアセットをルールに設定してプロファイリングをしておくと事前にクレンジングアセットの効果を確認できて便利です。
5. 最後に
クレンジング処理を実施してみました。淡々とクレンジング処理を実装して実行するだけで終わってしまいましたが、このように淡々と作業できるのは、事前にプロファイリングを行い、何が問題なのかを把握できているからです。事前のプロファイリングが十分に行われていないと、どんな処理を実装していいか検討することも難しいでしょう。プロファイリングは地味で時間のかかる作業なのでとても大変ですが、しっかりとプロファイリングを行うことはとても重要なことだと思います。
仲間募集中!
NTTデータ Data&Intelligence事業部 では、以下の職種を募集しています。
1. 「クラウド技術を活用したデータ分析プラットフォームの開発・構築(ITアーキテクト/クラウドエンジニア)」の募集
クラウド/プラットフォーム技術の知見に基づき、ITアーキテクトまたはPMとして、DWH、BI、ETL領域における、ソリューション開発の推進や、コンサルティング工程のシステムグランドデザイン策定時におけるアーキテクト観点からの検討を行う人材を募集しています。2. AI/データ活用を実践する「クラウド・ソリューションアーキテクト」
AI/データ活用を実践する「クラウド・ソリューションアーキテクト」として、クラウド先進テクノロジーを積極活用し、お客様のビジネス価値創出活動を実践。AI/データ活用の基本構想立案コンサルティングからクラウドプラットフォーム提供・活用を支援しています。お客様のAI・データ活用を支援するクラウド・ソリューション提案、アーキテクチャ設計・構築・継続活用支援(フルマネージドサービス提供)、および最新クラウドサービスに関する調査・検証で、クラウド分析基盤ソリューションのメニュー拡充を実施する人材を募集します。また、取り扱う主なソリューションについては、以下のページも参照ください。
ソリューション紹介
1. NTTデータとInformaticaについて
データ連携や処理方式を専門領域として10年以上取り組んできたプロ集団であるNTTデータは、データマネジメント領域でグローバルでの高い評価を得ているInformatica社とパートナーシップを結び、サービス強化を推進しています。2. Trusted Data Foundationについて
~データ資産を分析活用するための環境をオールインワンで提供するソリューション~https://enterprise-aiiot.nttdata.com/tdf/
最新のクラウド技術を採用して弊社が独自に設計したリファレンスアーキテクチャ(Datalake+DWH+AI/BI)を顧客要件に合わせてカスタマイズして提供します。
可視化、機械学習、DeepLearningなどデータ資産を分析活用するための環境がオールインワンで用意されており、これまでとは別次元の量と質のデータを用いてアジリティ高くDX推進を実現できます。