#Talend Data Preparationについて#
Talend Data Preparationは、データ分析の前段階でのクレンジング処理を視覚的にチェックしてデータを修正することができるツールです。
#セットアップ#
今回は無償版のTalend Data Preparation Desktopを導入してみます。
OSはWindows10で、Talend Data Preparation Desktopのバージョンは2.5.1です。
Talend Data Preparation Desktopのダウンロードはこちらから可能です。
ダウンロードしたインストーラーを実行し、画面の指示に従ってインストールを行います。
#起動#
Talend Data Preparationは単体でのアプリケーションではなく、サービスが起動されてからのブラウザアプリケーションとなっています。
起動はインストールしたフォルダの下にあるdataprep.exeを実行します。
起動中はTalend Data Preparationのアイコンが表示されていて、アイコンが消えてからしばらくするとブラウザが自動で起動されます。
起動後はPraparationsの一覧が表示されます。
#実践#
Praparationsの一覧には既に登録されているデータが存在していますが、Add Preparationボタンをクリックしてファイルから別のデータを読み込んでみます。
#ファイルからの読み込み#
ファイルの選択画面が表示されます。
既に用意されているサンプルファイルがありますので、一番上にあるエクセルファイルのCustomersを選択して、右下のCONFIRMボタンをクリックします。
#ファイルの読み込み後#
読み込んだデータの画面が表示されます。
この時点で表示されているデータは分析された状態になっています。
カラム名の右下にはData Preparationで定義済みのsemantic Typeが表示されています。
カラム名の下にはdata quarity barという色のついた部分があり、緑色はsemantic Typeと一致している状態を示し、白色は空白のデータがあることを示し、橙色はsemantic Typeと一致していないデータがあることを示しています。
#列を選択#
State列を選択すると右下に値別行数のチャートが表示されます。
#データパターンの表示#
右下のPATTERNをクリックすると、列のデータを分析して全パターンを表示します。
Stateはアメリカ合衆国の州コードなので正しいパターンはAAですが、正しくないパターンのAaaaaが存在していますので、このパターンAaaaaをクリックします。
#フィルタリング表示#
パターンAaaaaをクリックするとフィルタリングされて表示されます。
正しくないパターンのデータはTexasの4レコードでした。
#文字列置換#
正しくないパターンのデータを修正するために文字列置換機能を利用します。
右上のCOLUMNの一覧からSearch and replace...を選択します。
Search for:の下にあるアイコンをクリックすると、検索式の一覧が表示されますので、一番上の= Equalsを選択します。
検索式の右に検索条件となるTexasを入力し、下のReplace with:の欄に正しい州コードであるTXを入力し、SUBMITボタンをクリックします。
正しいデータに置換されるとデータが表示されなくなりますので、カラムの上にあるフィルタリング条件の×をクリックしてフィルタリングを解除します。
置換後に右下のPATTERNをクリックすると正しいパターンのAAのみが表示されています。
この置換した内容はレシピとして保存され、画面左側に表示されています。
#日付フォーマット指定#
次は日付のカラムに対してフォーマットを指定してみます。
まずカラムのSubDate列を選択し、右上の一覧からChange date format...をクリックします。
New format:のリストからOtherを選択し、下に表示されるYour format:に指定するフォーマットyyyy-MM-ddを入力してSUBMITボタンをクリックします。
SubDate列のデータはyyyy-MM-ddの形式にフォーマットされ、データ画面の左には実行したレシピが追加表示されます。
続けてフォーマットをJapanese standard with timeに変更します。
SubDate列のデータはyyyy/MM/dd HH:mmの形式にフォーマットされ、さらにレシピが追加表示されます。
#レシピの削除#
左側に表示されているレシピは追加した時点で自動保存されています。
間違ったレシピを追加してしまった場合には、特定のレシピだけを削除することができます。
削除したいレシピの上にマウスカーソルを置くとゴミ箱のアイコンが表示されますので、削除したい場合にはゴミ箱のアイコンをクリックします。
最後に追加したJapanese standard with timeにフォーマット指定したレシピが削除され、SubDateの表示が一つ前に実行したyyyy-MM-dd形式の表示に変わります。
#まとめ#
今回はTalend Data Preparation Desktopを使用して、基本的な使い方とデータの準備によくある文字列置換と日付フォーマット変更について実践してみました。
まだ紹介できていない機能もありますので引き続き投稿していこうと考えてます。
また、今回は無償版のDesktop版を使ってみましたが、有償版では他のTalendサービスとの連携が可能になるので、環境が構築できれば有償版での実践を行ってみたいと考えています。