#Talend Data PreparationとTalend Dictionary Serviceの連携#
前回まではTalend Data Preparation Desktop版を利用して機能を紹介しましたが、今回は有償版のTalend Data Preparationと同梱されるTalend Dictionary Serviceとの連携でできる機能を紹介します。
#Talend Data PreparationのSEMATIC TYPES#
有償版のTalend Data PreparationではSENATIC TYPES(辞書データ)の登録・更新・削除が可能になっており、SENATIC TYPESのデータはTalend Dictionary Serviceで管理されています。
今回はSEMANTIC TYPESの登録と更新によってDATASETSでのカラムの分析状況の変化について紹介します。
#DATASETSでのデータ取り込み#
まず用意した郵便番号データをDATASETSで取り込みます。
Data PreparationのメニューからDATASETSをクリックします。
DATASETS画面でADD DATASETボタンをクリックします。
ファイル選択画面が表示されますので、取り込む郵便番号データを選択しOPENボタンをクリックします。
DATSETSやPREPARATIONSでは標準の文字コードがUTF-8に設定されているため、日本語のデータを読み込むと文字化けして表示されます。
表の右上にある歯車アイコンをクリックするとDATASETのパラメーター設定画面が表示されます。
この画面ではEncodhingのほかにSepatatorなどが設定できるようになっています。
EncodingをShift_JISに変更してCONFIRMボタンをクリックします。
文字化けしていた日本語が正常に表示されました。
この時点では全てのカラムがtextとして分析されています。
#SEMATIC TYPESでの辞書データ登録#
メインメニューに戻りSEMANTIC TYPESをクリックします。
標準で登録されているSEMANTIC TYPEの一覧が表示されます。
一覧の上にあるADD SEMANTIC TYPEボタンをクリックします。
SEMANTIC TYPEの登録画面が表示されますので、Name、Description、Type、Validation Criterionを設定します。
ここでは、Nameを都道府県、Descriptionを都道府県名、タイプをDictionary、Validation CriterionをSimplified txet(most permissive)に設定します。
Valuesに都道府県名を追加して右下のSAVE AND PUBLISHボタンをクリックします。
SEMANTIC TYPESの一覧に都道府県が追加されました。
#DATASET画面でSEMANTIC TYPEの変更#
先ほど登録した郵便番号データを開き、都道府県カラムの右上にある三本線のマークをクリックします。
すると緑枠のリストが表示されて一番上にはThis column is a textと表示されており、このカラムがtextと分析されていることがわかります。
このThis column is a textの右端をクリックすると候補になるSEMANTIC TYPEが表示され、都道府県100%と分析されています。
このパーセンテージは、都道府県のSEMANTIC TYPEに登録されている内容が都道府県カラムのデータと一致している割合を示しています。
リストの都道府県をクリックしてカラムに適用します。
カラムに対して都道府県のSEMANTIC TYPEが適用されると、カラム名の右下に表示されていたtextが都道府県に変わりカラムのデータに対して再度分析が行われます。
分析結果はカラム名とデータ列の間にある色付きのバーで表示され、緑は一致、オレンジは不一致、白は空白となります。
このオレンジ色をクリックするとフィルタに不一致データが適用されて表示されます。
データを見ると都道府県が埼玉県であるデータのみが表示されていますので、都道府県のSEMANTIC TYPEには埼玉県が登録されていないことがわかります。
#SEMANTIC TYPESでの辞書データ更新#
先ほど登録した都道府県のSEMANTIC TYPEを開いて値に埼玉県を追加します。
値に埼玉県が追加してあることを確認してSAVE AND PUBLISHボタンをクリックして保存します。
#DATASETSでSEMANTIC TYPE更新の確認#
DATASETSで郵便番号データを開くと、都道府県のカラムの下にあるバーは全て緑色になっており、SEMANTIC TYPEの更新が適用されて不一致データが無くなったことがわかります。
都道府県に埼玉県のフィルタをかけて表示すると全ての行が正常な値として表示されました。
#まとめ#
有償版のTalend Data PreparationではSEMANTIC TYPEの活用が大きく広がり、データクレンジングの作業効率が大幅にアップできることが期待できます。
まだ他にも連携できる機能がありますので引き続き紹介していきたいと思います。