最近このツールを使って名寄せみたいなことができないかどうか聞かれて調べたので備忘録として書いておきます。
使ったツールは
IBM match 360, https://www.ibm.com/docs/ja/cloud-paks/cp-data/4.5.x?topic=services-match-360-watson
と言うツールでIBM Cloudにアカウントがあれば無料で試すことができます。
(ただしクレジットカードの登録がないアカウントは試せないようです)
ここでご存知の方はいいかと思いますがあえて名寄せとは何かと書いておくと ”複数のデータベースのなかから、氏名や住所、電話番号などの情報を手がかりにして、同一人物のデータがどこにあるかなどをまとめる作業のことをいいます。
例えば会社のウェブなどで簡単なアンケートを取りました。一方で自社の製品を使っている顧客のリストがあるとします。今回アンケートに答えてくれた人と既に顧客リストにある人をマッチングして集めたいな、検索したいな、と言う時に使っているようです。
やることは
- IBM Cloudでサービスをオーダー
- データを準備、登録
- Match 360を設定してマッチング
-
IBM Cloudでサービスをオーダー
IBM Cloudにアカウントがない場合は最初に登録を行います。登録はこちらから行います。
https://cloud.ibm.com/registration
次にポータル画面でMatch 360をオーダーすることになります。
カタログで"Match 360"を検索します。
現状無料のライトプランしかないですがこれでオーダーします。
サービスができたら"Launch in Cloud Pak for Data"をクリックするとmatch 360が起動します。
こちらがMatch360の画面です。 -
データを準備、登録
今回作成したデータはこちらのサイトでダミーデータを作成しました。
https://testdata.userlocal.jp/
作成したデータをもとに幾つかの項目を削除した簡易データを作成しました。具体的には
(住所が都道府県名だけ、生年月日やクレジットカードなどの詳細情報なし)
dummy.csv
dummyx.csv
-
Match 360を設定してマッチング
上記で作成したデータをMatch 360に入れてみましょう。
データのセットアップを選択して右側のメニューでcsvデータをアップロードしました。
データを入れたら資産プロパティーのマッチング、データのマッピング、データモデルの公開、データの公開をします。
手順はこちらのハンズオンを参考にするといいでしょう。
https://dataplatform.cloud.ibm.com/docs/content/wsj/mdm/end-to-end-tutorial.html
次にマッチングの設定をします。どの項目でマッチングするかを設定できます。
これには少し時間がかかります。(でも500件のデータで1分内でした)
マッチングが終わったらデータ検索で検索します。例えば斉藤弘子さんで検索すると
dummy, dummyXの両方にデータがありました。
アンケートを答えてくれた斉藤さんは顧客データにあった斉藤さんと同一人物だとわかりました。