3
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

Talend Data Preparationを使ってみる その3

Last updated at Posted at 2019-11-26

#Talend Data PreparationとTalend Dictionary Serviceの連携#
前回まではTalend Data Preparation Desktop版を利用して機能を紹介しましたが、今回は有償版のTalend Data Preparationと同梱されるTalend Dictionary Serviceとの連携でできる機能を紹介します。

#Talend Data PreparationのSEMATIC TYPES#
有償版のTalend Data PreparationではSENATIC TYPES(辞書データ)の登録・更新・削除が可能になっており、SENATIC TYPESのデータはTalend Dictionary Serviceで管理されています。
今回はSEMANTIC TYPESの登録と更新によってDATASETSでのカラムの分析状況の変化について紹介します。

#DATASETSでのデータ取り込み#
まず用意した郵便番号データをDATASETSで取り込みます。
Data PreparationのメニューからDATASETSをクリックします。
有償版メニュー_データセット.jpg

DATASETS画面でADD DATASETボタンをクリックします。
データセット画面01.jpg

ファイル選択画面が表示されますので、取り込む郵便番号データを選択しOPENボタンをクリックします。
データセット画面02.jpg

DATSETSやPREPARATIONSでは標準の文字コードがUTF-8に設定されているため、日本語のデータを読み込むと文字化けして表示されます。
データセット画面04.jpg

表の右上にある歯車アイコンをクリックするとDATASETのパラメーター設定画面が表示されます。
データセット画面05.jpg

この画面ではEncodhingのほかにSepatatorなどが設定できるようになっています。
データセット画面06.jpg

EncodingをShift_JISに変更してCONFIRMボタンをクリックします。
データセット画面07.jpg

文字化けしていた日本語が正常に表示されました。
この時点では全てのカラムがtextとして分析されています。
データセット画面08.jpg

#SEMATIC TYPESでの辞書データ登録#
メインメニューに戻りSEMANTIC TYPESをクリックします。
有償版メニュー_セマンティックタイプ.jpg

標準で登録されているSEMANTIC TYPEの一覧が表示されます。
一覧の上にあるADD SEMANTIC TYPEボタンをクリックします。
セマンティック作成00.jpg

SEMANTIC TYPEの登録画面が表示されますので、Name、Description、Type、Validation Criterionを設定します。
ここでは、Nameを都道府県、Descriptionを都道府県名、タイプをDictionary、Validation CriterionをSimplified txet(most permissive)に設定します。
セマンティック作成01.jpg

Valuesに都道府県名を追加して右下のSAVE AND PUBLISHボタンをクリックします。
セマンティック作成02.jpg

SEMANTIC TYPESの一覧に都道府県が追加されました。
セマンティック作成03.jpg

#DATASET画面でSEMANTIC TYPEの変更#
先ほど登録した郵便番号データを開き、都道府県カラムの右上にある三本線のマークをクリックします。
すると緑枠のリストが表示されて一番上にはThis column is a textと表示されており、このカラムがtextと分析されていることがわかります。
データセット画面10.jpg

このThis column is a textの右端をクリックすると候補になるSEMANTIC TYPEが表示され、都道府県100%と分析されています。
このパーセンテージは、都道府県のSEMANTIC TYPEに登録されている内容が都道府県カラムのデータと一致している割合を示しています。
リストの都道府県をクリックしてカラムに適用します。
データセット画面11.jpg

カラムに対して都道府県のSEMANTIC TYPEが適用されると、カラム名の右下に表示されていたtextが都道府県に変わりカラムのデータに対して再度分析が行われます。
分析結果はカラム名とデータ列の間にある色付きのバーで表示され、緑は一致、オレンジは不一致、白は空白となります。
データセット画面13.jpg

このオレンジ色をクリックするとフィルタに不一致データが適用されて表示されます。
データを見ると都道府県が埼玉県であるデータのみが表示されていますので、都道府県のSEMANTIC TYPEには埼玉県が登録されていないことがわかります。
データセット画面14.jpg

#SEMANTIC TYPESでの辞書データ更新#
先ほど登録した都道府県のSEMANTIC TYPEを開いて値に埼玉県を追加します。
セマンティック更新02.jpg

値に埼玉県が追加してあることを確認してSAVE AND PUBLISHボタンをクリックして保存します。
セマンティック更新03.jpg

#DATASETSでSEMANTIC TYPE更新の確認#
DATASETSで郵便番号データを開くと、都道府県のカラムの下にあるバーは全て緑色になっており、SEMANTIC TYPEの更新が適用されて不一致データが無くなったことがわかります。
データセット画面15.jpg

都道府県に埼玉県のフィルタをかけて表示すると全ての行が正常な値として表示されました。
データセット画面16.jpg

#まとめ#
有償版のTalend Data PreparationではSEMANTIC TYPEの活用が大きく広がり、データクレンジングの作業効率が大幅にアップできることが期待できます。
まだ他にも連携できる機能がありますので引き続き紹介していきたいと思います。

3
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?