#Talend Data Preparation Desktopでのクレンジング機能#
前回はTalend Data Preparation Desktopでの基本的な使い方を紹介しました。
この中で文字列置換と日付フォーマット指定を紹介しましたが、他にも多数のクレンジング機能がありますので一覧で紹介したいと思います。
#列を対象にしたクレンジング機能#
- Compare numbers
指定した値または他の列の値と比較を行いBoolean型を返す - Add,multiply,subtract or divide
指定した値または他の列の値と四則演算を行い結果を返す - Negate value
Boolean型に対して否定値を返す - Concatenate with
指定した値または他の列の値と結合を行い結果を返す - Delete column
選択した列の削除(複数指定可能) - Swap column
指定した列の値と入れ替える - Convert distance
距離単位で変換する(メートル、インチ、フィート、ヤード、マイル、海里、光年) - Convert duration
日時単位で変換する(年、月、日、時、分、秒、ミリ秒) - Convert temperature
温度単位で変換する(華氏、摂氏、ケルビン) - Clear on matching value
指定した条件に一致するセルをクリアする - Clear the cells with invalid values
無効な値を持つセルをクリアする - Delete the rows that match
指定した条件に一致する行を削除する - Delete the rows with empty cell
空のセルを持つ行を削除する - Delete the rows with invalid cell
無効なセルを持つ行を削除する - Delete the rows with negative values
負の値を持つ行を削除する - Fill cells with value
指定した値または他の列の値で埋める - Fill empty cells from above
空のセルを一つ上のセルの値で埋める - Fill empty cells with text
空のセルを指定した値または他の列の値で埋める - Fill invalid cells with value
無効なセルを指定した値または他の列の値で埋める - Standardize value(fuzzy matching)
値の標準化(ファジーマッチング) - Mask data(obfuscation)
データの一部をXに置換してマスキングする - Calculate time since
指定した日時または他の列の日時との経過時間を計算する - Calculate timestamp to date
現在日時までのタイムスタンプを計算する - Compare date
指定した日付または他の列の日付との比較を行いBoolean型を返す - Convert date
指定したフォーマット(暦)の日付に変換する - Extract date parts
列の日時から各指定の部分(年月日など)を抽出する - Modify date
指定した単位(年月日時)で指定した値または他の列の値を加算する - base 10 logarithm
10を底とする対数を計算する - Calculate absolute value
絶対値を計算する - Cosine
余弦(コサイン)を計算する - Exponential
指数を計算する - Max
指定した値または他の列の値と比較を行い最大値を返す - Min
指定した値または他の列の値と比較を行い最小値を返す - Modulo
指定した値または他の列の値との剰余演算値を返す - Natural logarithm
自然対数を計算する - Negate
否定値を返す - Power
二乗値を計算する - Sine
正弦(サイン)を計算する - Square root
平方根を計算する - Tangent
正接(タンジェント)を計算する - Format numbers
数値を指定した書式で返す - Generate sequence
指定した開始値と増加数で連番を生成する - Remove fractional part
小数部分を削除して返す - Remove negative values
セルの値が負数なら削除する - Round value using ceil mode
指定した小数点桁数で丸めて返す - Round value using down mode
指定した小数点桁数で切り捨てして返す - Round value using floor mode
指定した小数点桁数で切り上げして返す - Round value using halfup mode
指定した小数点桁数で四捨五入して返す - Format phone number
電話番号を指定したフォーマットで返す - Extract email parts
Emailをローカルとドメインで分割して返す - Extract number
数字のみを抽出して返す - Extract string parts
指定した正規表現で文字列部分を抽出して返す - Extract URL parts
URLをプロトコル、ホスト、ポートで分割して返す - Split the text in parts
文字列を指定した区切文字で指定した数で分割して返す - Calculate length
値の桁数を返す - Change to lower case
大文字を小文字に変換して返す - Change to title case
先頭が小文字なら大文字に変換して返す - Change to upper case
小文字を大文字に変換して返す - Contains text
指定した値または他の列の値があるか比較しBoolean型を返す - Extract parts of text
セル内から指定した条件で文字列として抽出する - Match similar text
セル内に指定したテキストと一致するか比較しBoolean型を返す - Matches pattern
セル内が指定した正規表現と一致するか比較しBoolean型を返す - Remove consecutive characters
セル内に指定した文字が連続していれば1文字削除する - Remove part of the text
セルの値が指定した条件と一致すれば削除する - Remove trailing and leading characters
セル内の先頭と末尾から指定した文字を削除する - Search and replace
指定したパターンと一致する箇所を指定した値に置換する - Add extra characters
指定した桁数を満たす部分に指定した文字を追加する - Find and group similar text
セルから類似テキストの検索とグループ化を行う - Remove non alpha numeric characters
セルの値から英数字ではない文字を削除する - Remove non numeric characters
セルの値から数字ではない文字を削除する - Simplify text(remove case,accent,etc,)
セル内のテキストの簡略化(大文字小文字の区別、アクセントなど)
#行を対象にしたクレンジング機能#
- Delete row
指定した行を削除する(複数指定可能) - Make as header
指定した行の値でヘッダーを作成する
#表を対象にしたクレンジング機能#
- Delete empty rows
空の行を削除する - Remove duplicate rows
重複している行を削除する - Format phone number
データ内の電話番号を指定したフォーマットで返す - Remove trailing and leading characters
データ内の先頭と末尾から指定した文字を削除する
#クレンジング機能のプレビュー#
クレンジングを実行する前に画面上でプレビューすることも可能です。
Email列を大文字に変換するクレンジングで説明します。
メニューのChange to upper caseをクリックするとSUBMITボタンが表示されますので、このボタン上にマウスカーソルを置いていると表の上にPreviewと表示され始めます。
しばらくするとプレビューが開始され、Email列の値が大文字の状態で表示されます。
SUBMITボタンの上にあるCreate new columnをチェックすると、オリジナルの列は残したままで、その右に新しくクレンジングした内容の列を作成してくれます。
ほとんどのクレンジング機能にはCreate new columnのオプションがありますが、一部のクレンジング機能(分割抽出機能など)は無条件に新しい列が作成されます。
#まとめ#
Talend Data Preparation Desktopには多種多様なクレンジング機能があることがわかりましたが、個人的にはクレンジングの結果をプレビューして確認できるのは非常に使えるなと思いました。
次回もTalend Data Preparationの機能について紹介していきたいと思います。