More than 5 years have passed since last update.

Talend Data Preparationを使ってみるその３

Last updated at 2019-12-06Posted at 2019-11-26

Talend Data PreparationとTalend Dictionary Serviceの連携#

前回まではTalend Data Preparation Desktop版を利用して機能を紹介しましたが、今回は有償版のTalend Data Preparationと同梱されるTalend Dictionary Serviceとの連携でできる機能を紹介します。

Talend Data PreparationのSEMATIC TYPES#

有償版のTalend Data PreparationではSENATIC TYPES（辞書データ）の登録・更新・削除が可能になっており、SENATIC TYPESのデータはTalend Dictionary Serviceで管理されています。
今回はSEMANTIC TYPESの登録と更新によってDATASETSでのカラムの分析状況の変化について紹介します。

DATASETSでのデータ取り込み#

まず用意した郵便番号データをDATASETSで取り込みます。
Data PreparationのメニューからDATASETSをクリックします。

DATASETS画面でADD DATASETボタンをクリックします。

ファイル選択画面が表示されますので、取り込む郵便番号データを選択しOPENボタンをクリックします。

DATSETSやPREPARATIONSでは標準の文字コードがUTF-8に設定されているため、日本語のデータを読み込むと文字化けして表示されます。

表の右上にある歯車アイコンをクリックするとDATASETのパラメーター設定画面が表示されます。

この画面ではEncodhingのほかにSepatatorなどが設定できるようになっています。

EncodingをShift_JISに変更してCONFIRMボタンをクリックします。

文字化けしていた日本語が正常に表示されました。
この時点では全てのカラムがtextとして分析されています。

SEMATIC TYPESでの辞書データ登録#

メインメニューに戻りSEMANTIC TYPESをクリックします。

標準で登録されているSEMANTIC TYPEの一覧が表示されます。
一覧の上にあるADD SEMANTIC TYPEボタンをクリックします。

SEMANTIC TYPEの登録画面が表示されますので、Name、Description、Type、Validation Criterionを設定します。
ここでは、Nameを都道府県、Descriptionを都道府県名、タイプをDictionary、Validation CriterionをSimplified txet(most permissive)に設定します。

Valuesに都道府県名を追加して右下のSAVE AND PUBLISHボタンをクリックします。

SEMANTIC TYPESの一覧に都道府県が追加されました。

DATASET画面でSEMANTIC TYPEの変更#

先ほど登録した郵便番号データを開き、都道府県カラムの右上にある三本線のマークをクリックします。
すると緑枠のリストが表示されて一番上にはThis column is a textと表示されており、このカラムがtextと分析されていることがわかります。

このThis column is a textの右端をクリックすると候補になるSEMANTIC TYPEが表示され、都道府県100%と分析されています。
このパーセンテージは、都道府県のSEMANTIC TYPEに登録されている内容が都道府県カラムのデータと一致している割合を示しています。
リストの都道府県をクリックしてカラムに適用します。