5
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

Talend Data Preparationを使ってみる その4

Last updated at Posted at 2019-12-05

#Talend Data PreparationとTalend Studioの連携#
前回はTalend Data PreparationとTalend Dictionary Serviceとの連携について紹介しましたが、今回はTalend Data PreparationとTalend Studioでの連携機能について紹介します。

#Talend DatapreparationでPreaparation(クレンジング定義)の作成#
Preaparation(クレンジング定義)の作成はその1で紹介していますが、おさらい的な意味もかねて手順を進めていきます。

今回使用するデータは日本語のデータですが、Talend Studioとの連携をわかりやすくするためにカラム名は英字で作成しています。
データは、名前、ふりがな、メールアドレス、性別、年齢、誕生日、婚姻、血液型、都道府県、電話番号、携帯番号、キャリアで構成されています。
01_初期データ.jpg

DataPreparationを起動してログインし、ADD PREPARATIONボタンをクリックします。
02_DataPreparation起動後.jpg

Import fileをクリックします。
03_DATAPREPARATION画面_ADD PREPARATIONクリック後.jpg

用意したダミーデータファイルを開きます。
04_DATAPREPARATION画面_ファイル指定.jpg

データ内容の日本語が文字化けしていますので、右上の歯車ボタンをクリックしてデータ設定画面を開きます。
05_DummyData設定クリック.jpg
06_データ設定画面表示.jpg

EncodingがUTF-8になっていますのでShift_JISに変更してCONFIRMボタンをクリックします。
07_データ設定Shift_JIS変更.jpg

データ内容が正常に表示されました。
08_Enchoding変更後.jpg

Nameカラムを姓と名に分割するクレンジングを定義します。
右の機能一覧からSplit the text in parts...をクリックします。
09_Nameカラム_クレンジング.jpg

SeparatorをSpaceに変更しSUBMITボタンをクリックします。
10_Nameカラム_クレンジング.jpg

Nameカラムの右にName_split_1カラムとName_split_2カラムが追加され、Name_split_1カラムには姓、Name_split_2カラムに名が分割されてセットされています。
11_Nameカラム分割後.jpg

続けて機能一覧からDelete columnをクリックします。
12_Nameカラム削除.jpg

分割前のNameカラムが削除されました。
13_Nameカラム削除後.jpg

Name_split_1カラム名の右にある三本線をクリックし、メニューからRename columnをクリックします。
14_Name_split_1カラム_Rename.jpg

新しいカラム名をLastNameにしてSUBMITボタンをクリックします。
15_Name_split_1カラム_Rename設定.jpg

Name_split_1カラムがLastNameに変更されました。
16_Name_split_1カラム_Rename設定後.jpg

同じ手順でName_split_2カラムをFirstNameに変更します。
Huriganaカラムについても、Split the text in parts...でふりがなの姓とふりがなの名に分割し、Huriganaカラムを削除した後に、Hurigana_split_1をLastName_Huriganaに変更し、Hurigana_split_2をFirstName_Huriganaに変更します。
17_Name_Hurigana_分割_Rename設定後.jpg

Emailカラムを選択して、右の機能からMask data(obfuscation)...クリックし、SUBMITボタンをクリックします。
18_Email_Mask設定.jpg

メールアドレスの一部がXに置換されました。
右上の×ボタンをクリックして一覧に戻ります。
19_Email_Mask設定後.jpg

PREARATIONSの一覧にDummyData Preparationが作成されました。
20_PREPARATIONS一覧.jpg

DATASETSの一覧にはDummyDataが作成されています。
21_DATASETS一覧.jpg

Talend DataPreparationでのPreparation(クレンジング定義)の作成作業はこれで終了です。

#Talend StudioでDataPreparation用のジョブ作成#
ここからはTaend Studioでジョブを作成します。
Taend Studioを起動して任意のプロジェクトを開いて新しいジョブを作成します。
PaletteリストからTalend Data Preparationを開き、tDatasetInputコンポーネントをジョブに配置します。
22_Job_tDatasetInputコンポーネント追加.jpg

Talend DataPreparationで使用しているUrl、Email、Passwordを設定して、Choose a datasetボタンをクリックします。
23_Job_tDatasetInputコンポーネント_接続設定.jpg

Talend DataPreparationのDATASET一覧が表示されますので、DummyDataのチェックボックスをクリックしてOKボタンをクリックします。
24_Job_tDatasetInputコンポーネント_dataset選択画面.jpg

Fetch SchemaボタンをクリックしてからEdit schemaの右にあるボタンをクリックします。
24_Job_tDatasetInputコンポーネント_dataset選択後.jpg

ここで表示されたスキーマは、Talend DataPreparationで読み込んだDummyData.csvのカラムと一致しています。
25_Job_tDatasetInputコンポーネント_dataset_スキーマ取得後.jpg

続けてtDataprepRunコンポーネントをジョブに追加します。
26_Job_tDataprepRunコンポーネント追加.jpg

Data Preparation ConnectionにはTalend DataPreparationで使用しているUrl、Email、Passwordを設定します。
ConfigurationのDynamic preparation selectionをチェックして、Preparation pathにはTalend DataPreparationのPREPARATIONSに作成されたDummyData preparationを設定します。
設定後にFetch Schemaをクリックします。
27_Job_tDataprepRunコンポーネント_接続設定.jpg

変更確認のメッセージが表示されますのでOKボタンをクリックします。
28_Job_tDataprepRunコンポーネント_fetchshema確認.jpg

取得したスキーマはTalend DataPreparationで作成したDummyData Preparation(クレンジング定義)のスキーマになっています。
29_Job_tDataprepRunコンポーネント_preparationスキーマ取得後.jpg

ジョブにtFileOutputDelimitedコンポーネントを追加します。
30_Job_tFileOutputDelimitedコンポーネント追加.jpg

ファイル名、区切り文字、ヘッダー設定を変更します。
31_Job_tFileOutputDelimitedコンポーネント設定1.jpg

文字コードをShift_JISに変更します。
32_Job_tFileOutputDelimitedコンポーネント設定2.jpg

ジョブの設定が完了しましたので実行します。
33_Job_実行準備完了.jpg

ジョブが正常に実行されて結果が表示されました。
34_Job_実行完了.jpg

指定したファイルが出力されています。
35_ファイル出力確認.jpg

出力されたファイルの内容はDataPreparationのクレンジング定義の内容で出力されています。
36_クレンジングデータ.jpg

#まとめ#
Talend DatapreparationとTalend Studioを使用することにより、Talend DatapreparationにDATASETをアップロードしてジョブを実行することにより、クレンジングファイルの作成が行われることになります。
今回作成したジョブはバッチモードで作成しましたが、次回はライブモードのジョブ作成を紹介したいと考えてます。

5
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?