はじめに
Data Integration は、様々なデータアセットからデータを取り込み、データのクレンジング・変換・再形成・変換などの ETL 処理が出来るフルマネージドサービスです。サーバー管理が不要で、GUI で視覚的にわかりやすく ETL 処理を表現できます。
今回は、日本語データを使ったデータ加工処理を記事にしています。過去、なんどか Data Integration の検証をしてきましたが、すべて英語で書かれた csv ファイルを使っていました。日本語対応はどうなっているのだろうと思い、検証した結果を共有します。結論をまず書くと、日本語を使ったデータも正常に扱うことが出来ます。
それでは検証した内容を紹介していきます。
やること
次の日本語 csv ファイルを Object Storage に格納して、Data Integration でデータ加工を行います。
名前,住所,電話番号
杉山,北海道,111-1111-1111
鈴木,埼玉県,222-2222-2222
木村,沖縄,333-3333-3333
名前に 杉山
と書かれている行をフィルターして、Object Storage に加工後の csv ファイルを出力してみます。
Data Flow の作成
データ加工の流れを GUI で定義していきます。Create Data Flow を選択します。
Source Icon をキャンバスにドラッグアンドドロップします
各種パラメータを変更して、Object Storage に格納した日本語 csv データを指定します。
Data タブを選択すると、日本語 csv データの中身を確認できます
Filter Icon を置いて、Source と接続します。そのあとに、Create を押してフィルターの条件を加えます。
杉山でフィルターする条件をいれ、Create を押します。
FILTER_1.日本語データ01_CSV.名前='杉山'
Data Tab を見ると、フィルターした結果がリアルタイムに格納できます!便利ですね。
Target Icon を配置して、Filter と接続します
Target の Attribute を入れます。Object Storage にある、output
バケットに、multibytedir001
ディレクトリを作成しその中にデータ加工後の csv ファイルを出力します。
Validate で何もエラーが無いことを確認します。そして、Save and Close で保存します。
Task の作成
作成した Data Flow を使って、Integration Task を作成し、それを Application に格納します。それぞれの関係性は次の内容になっています。
Integration Task を作成します
作成した Data Flow を選択して、Save and Close します。
Publish to Application を選択します
Application 上で Run を押します
一定時間後、Runs のステータスが Success に変わります
csv ファイルの中身です。ちゃんと 杉山
のみにフィルターされていますね。Data Integration のデータ加工は、日本語が含まれたファイルでも問題なく動作することが確認できました。
名前,住所,電話番号
杉山,北海道,111-1111-1111