6
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

Talend Data Preparationを使ってみる その1

Last updated at Posted at 2019-11-13

#Talend Data Preparationについて#
Talend Data Preparationは、データ分析の前段階でのクレンジング処理を視覚的にチェックしてデータを修正することができるツールです。

#セットアップ#
今回は無償版のTalend Data Preparation Desktopを導入してみます。
OSはWindows10で、Talend Data Preparation Desktopのバージョンは2.5.1です。
Talend Data Preparation Desktopのダウンロードはこちらから可能です。
ダウンロードしたインストーラーを実行し、画面の指示に従ってインストールを行います。

#起動#
Talend Data Preparationは単体でのアプリケーションではなく、サービスが起動されてからのブラウザアプリケーションとなっています。
起動はインストールしたフォルダの下にあるdataprep.exeを実行します。
起動中はTalend Data Preparationのアイコンが表示されていて、アイコンが消えてからしばらくするとブラウザが自動で起動されます。
起動後はPraparationsの一覧が表示されます。

#実践#
Praparationsの一覧には既に登録されているデータが存在していますが、Add Preparationボタンをクリックしてファイルから別のデータを読み込んでみます。
DataPreparation_デモ_01.jpg

#ファイルからの読み込み#
ファイルの選択画面が表示されます。
既に用意されているサンプルファイルがありますので、一番上にあるエクセルファイルのCustomersを選択して、右下のCONFIRMボタンをクリックします。
DataPreparation_デモ_02.jpg

#ファイルの読み込み後#
読み込んだデータの画面が表示されます。
この時点で表示されているデータは分析された状態になっています。
カラム名の右下にはData Preparationで定義済みのsemantic Typeが表示されています。
カラム名の下にはdata quarity barという色のついた部分があり、緑色はsemantic Typeと一致している状態を示し、白色は空白のデータがあることを示し、橙色はsemantic Typeと一致していないデータがあることを示しています。
DataPreparation_デモ_03.jpg

#列を選択#
State列を選択すると右下に値別行数のチャートが表示されます。
DataPreparation_デモ_04.jpg

#データパターンの表示#
右下のPATTERNをクリックすると、列のデータを分析して全パターンを表示します。
Stateはアメリカ合衆国の州コードなので正しいパターンはAAですが、正しくないパターンのAaaaaが存在していますので、このパターンAaaaaをクリックします。
DataPreparation_デモ_05.jpg

#フィルタリング表示#
パターンAaaaaをクリックするとフィルタリングされて表示されます。
正しくないパターンのデータはTexasの4レコードでした。
DataPreparation_デモ_06.jpg

#文字列置換#
正しくないパターンのデータを修正するために文字列置換機能を利用します。
右上のCOLUMNの一覧からSearch and replace...を選択します。
DataPreparation_デモ_07.jpg
Search for:の下にあるアイコンをクリックすると、検索式の一覧が表示されますので、一番上の= Equalsを選択します。
DataPreparation_デモ_08.jpg
検索式の右に検索条件となるTexasを入力し、下のReplace with:の欄に正しい州コードであるTXを入力し、SUBMITボタンをクリックします。
DataPreparation_デモ_09.jpg
正しいデータに置換されるとデータが表示されなくなりますので、カラムの上にあるフィルタリング条件の×をクリックしてフィルタリングを解除します。
DataPreparation_デモ_10.jpg
置換後に右下のPATTERNをクリックすると正しいパターンのAAのみが表示されています。
DataPreparation_デモ_11.jpg
この置換した内容はレシピとして保存され、画面左側に表示されています。

#日付フォーマット指定#
次は日付のカラムに対してフォーマットを指定してみます。
まずカラムのSubDate列を選択し、右上の一覧からChange date format...をクリックします。
DataPreparation_デモ_22_1.jpg
New format:のリストからOtherを選択し、下に表示されるYour format:に指定するフォーマットyyyy-MM-ddを入力してSUBMITボタンをクリックします。
DataPreparation_デモ_22_2.jpg
SubDate列のデータはyyyy-MM-ddの形式にフォーマットされ、データ画面の左には実行したレシピが追加表示されます。
DataPreparation_デモ_23.jpg
続けてフォーマットをJapanese standard with timeに変更します。
DataPreparation_デモ_24.jpg
SubDate列のデータはyyyy/MM/dd HH:mmの形式にフォーマットされ、さらにレシピが追加表示されます。
DataPreparation_デモ_25.jpg

#レシピの削除#
左側に表示されているレシピは追加した時点で自動保存されています。
間違ったレシピを追加してしまった場合には、特定のレシピだけを削除することができます。
削除したいレシピの上にマウスカーソルを置くとゴミ箱のアイコンが表示されますので、削除したい場合にはゴミ箱のアイコンをクリックします。
DataPreparation_デモ_26.jpg
最後に追加したJapanese standard with timeにフォーマット指定したレシピが削除され、SubDateの表示が一つ前に実行したyyyy-MM-dd形式の表示に変わります。
DataPreparation_デモ_27.jpg

#まとめ#
今回はTalend Data Preparation Desktopを使用して、基本的な使い方とデータの準備によくある文字列置換と日付フォーマット変更について実践してみました。
まだ紹介できていない機能もありますので引き続き投稿していこうと考えてます。
また、今回は無償版のDesktop版を使ってみましたが、有償版では他のTalendサービスとの連携が可能になるので、環境が構築できれば有償版での実践を行ってみたいと考えています。

6
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?