#Talend Data PreparationとTalend Studioの連携#
前回はTalend Data PreparationとTalend Dictionary Serviceとの連携について紹介しましたが、今回はTalend Data PreparationとTalend Studioでの連携機能について紹介します。
#Talend DatapreparationでPreaparation(クレンジング定義)の作成#
Preaparation(クレンジング定義)の作成はその1で紹介していますが、おさらい的な意味もかねて手順を進めていきます。
今回使用するデータは日本語のデータですが、Talend Studioとの連携をわかりやすくするためにカラム名は英字で作成しています。
データは、名前、ふりがな、メールアドレス、性別、年齢、誕生日、婚姻、血液型、都道府県、電話番号、携帯番号、キャリアで構成されています。
DataPreparationを起動してログインし、ADD PREPARATIONボタンをクリックします。
データ内容の日本語が文字化けしていますので、右上の歯車ボタンをクリックしてデータ設定画面を開きます。
EncodingがUTF-8になっていますのでShift_JISに変更してCONFIRMボタンをクリックします。
Nameカラムを姓と名に分割するクレンジングを定義します。
右の機能一覧からSplit the text in parts...をクリックします。
SeparatorをSpaceに変更しSUBMITボタンをクリックします。
Nameカラムの右にName_split_1カラムとName_split_2カラムが追加され、Name_split_1カラムには姓、Name_split_2カラムに名が分割されてセットされています。
続けて機能一覧からDelete columnをクリックします。
Name_split_1カラム名の右にある三本線をクリックし、メニューからRename columnをクリックします。
新しいカラム名をLastNameにしてSUBMITボタンをクリックします。
Name_split_1カラムがLastNameに変更されました。
同じ手順でName_split_2カラムをFirstNameに変更します。
Huriganaカラムについても、Split the text in parts...でふりがなの姓とふりがなの名に分割し、Huriganaカラムを削除した後に、Hurigana_split_1をLastName_Huriganaに変更し、Hurigana_split_2をFirstName_Huriganaに変更します。
Emailカラムを選択して、右の機能からMask data(obfuscation)...クリックし、SUBMITボタンをクリックします。
メールアドレスの一部がXに置換されました。
右上の×ボタンをクリックして一覧に戻ります。
PREARATIONSの一覧にDummyData Preparationが作成されました。
DATASETSの一覧にはDummyDataが作成されています。
Talend DataPreparationでのPreparation(クレンジング定義)の作成作業はこれで終了です。
#Talend StudioでDataPreparation用のジョブ作成#
ここからはTaend Studioでジョブを作成します。
Taend Studioを起動して任意のプロジェクトを開いて新しいジョブを作成します。
PaletteリストからTalend Data Preparationを開き、tDatasetInputコンポーネントをジョブに配置します。
Talend DataPreparationで使用しているUrl、Email、Passwordを設定して、Choose a datasetボタンをクリックします。
Talend DataPreparationのDATASET一覧が表示されますので、DummyDataのチェックボックスをクリックしてOKボタンをクリックします。
Fetch SchemaボタンをクリックしてからEdit schemaの右にあるボタンをクリックします。
ここで表示されたスキーマは、Talend DataPreparationで読み込んだDummyData.csvのカラムと一致しています。
続けてtDataprepRunコンポーネントをジョブに追加します。
Data Preparation ConnectionにはTalend DataPreparationで使用しているUrl、Email、Passwordを設定します。
ConfigurationのDynamic preparation selectionをチェックして、Preparation pathにはTalend DataPreparationのPREPARATIONSに作成されたDummyData preparationを設定します。
設定後にFetch Schemaをクリックします。
変更確認のメッセージが表示されますのでOKボタンをクリックします。
取得したスキーマはTalend DataPreparationで作成したDummyData Preparation(クレンジング定義)のスキーマになっています。
ジョブにtFileOutputDelimitedコンポーネントを追加します。
出力されたファイルの内容はDataPreparationのクレンジング定義の内容で出力されています。
#まとめ#
Talend DatapreparationとTalend Studioを使用することにより、Talend DatapreparationにDATASETをアップロードしてジョブを実行することにより、クレンジングファイルの作成が行われることになります。
今回作成したジョブはバッチモードで作成しましたが、次回はライブモードのジョブ作成を紹介したいと考えてます。