GoogleCloudPlatform
bigquery
GoogleCloudDataprep

巷でうわさの Cloud Dataprep を実際に試してみるの巻

こんばんは!最近 Google Home を買っていろいろ試してる @wezardnet です。自分的には、(音質は悪くないと思うので)ワイヤレススピーカーとして利用しても十分元は取れたかなっと思ってます :headphones:

さて、今年こそは Advent Calendar に参戦しようとネタを考えてるうちに埋まってしまいました。ネタはカレンダーに登録してから考えた方が良さそうですね、失敗したわ... :cry:
というわけで、今回は通常の投稿になってしまいますが、うわさで聞いた Google Cloud Platform(GCP) の Cloud Dataprep というモノを実際に使って体験してみたことを共有したいと思います。

参考にした記事 など...

公式ドキュメント以外では、あまり解説記事や事例紹介などは見かけなかったですが @satoru_mag さんの以下の記事が大変参考になりました :thumbsup:

Cloud Dataprep は何に使うの?

コーディングレスでデータ変換、あるいは加工することができます。また、異常値を検出したりなどデータ分析にも使えます。その他に思いつくユースケースとしては、個人データをマスクしたりなど、サーバーレス データマスキングツールとしても活用できそうな気がします♪

構成 など...

はじめに CSV データを Google Cloud Storage(GCS) にアップロードします。次にそれを Dataprep にインポートしてデータ クレンジング(の実験)を行い、最終的に BigQuery に出力するという感じで使ってみます。。。

Cloud Dataprep.png

インターネット上で公開しても良い適当なデータが手元にないので、次のようなダミーの顧客マスタを使うことにします。

1,アサヒカッポウ,朝日割烹,101-1132,群馬県邑楽郡大泉町 2-4-11,,0276-48-3531,0276-48-8323,越坂部  仁美,0.2,mtori54@Youbin.yu.jp,http://www.njc.co.jp/
2,チチュウカイリョウリレイア,地中海料理レイア,101-1133,埼玉県比企郡吉見町 13-2-10,,0493-23-5755,0493-23-2046,佐々木  和人,0.5,mtori55@mailmail.ne.jp,https://www.google.com/
3,ロシアリョウリレストラン,ロシア料理レストラン,101-1134,東京都調布市大郷 3-4-29,,0424-40-2843,0424-40-4435,末次  晴彦,0.3,mtori56@abc.pe.jp,http://www.yahoo.co.jp
・
・
・

Dataprep の UI が微妙に変わってたりしますが、ベータなので今後も変わる可能性はあります。基本的にはデータを Dataprep にインポートして、レシピ(Recipe)から新しいステップ(New Step)を作る手順になります。

【実験1】住所から都道府県を抜き出して項目を分離させる

住所が入っている項目から都道府県を抜き出して、それぞれ別項目に分離させてみることにします。次のようにステップのパラメータを入力します。

  • 変換(Choose a transformation) → 「split」を選択する
  • カラム(Column) → 住所が入っているカラム名を入れる
  • パターン(Patterns) → 「Between two patterns」を選択する
    • starting after → /^(.{1,3}[都|道|府|県])/
    • ending before → `{digit}{0}`

これでステップを作ると、次のようにプレビューが表示され、都道府県を分離することができました :grinning:

dataprep01.png

【実験2】URL からドメインを抽出してみる

ホームページ URL からドメインを抜き出してみることにします。ステップのパラメータは次のように入力します。

  • 変換(Choose a transformation) → 「derive」を選択する
  • 式(Formula) → 「DOMAIN({URL が入っているカラム名})」
  • 新しいカラム名(New column name) → DOMAIN 関数の出力先のカラム名を入力する

これでステップを作ると、次のようにプレビューが表示され、ドメインが抽出されるはず、、、と思いきや期待どおりな結果が得られず公式ドキュメントを読み直す。
どうやら DOMAIN 関数では多階層のトップレベルドメインの解析はドメインの最初の部分を返すという注意書きがあるので仕様のようです :pensive:

dataprep02.png

【実験3】電話番号と FAX 番号からハイフンを除去する

電話番号と FAX 番号からハイフンを除去して数字のみにしたい時は、次のようにステップを作ります。

  • 変換(Choose a transformation) → 「replace」を選択する
  • カラム(Column) → 電話番号と FAX 番号が入っているカラム名を入れる
  • パターン(Patterns) → 「On pattern」を選択する
    • on → `{delim}`
  • 新しい値(New value) → 空欄
  • すべてマッチさせるか(Match all occurences) → Yes

dataprep04.png

【実験4】特定の条件に合致するデータのみ取捨選択する

今回は顧客マスタ(CSV データ)から「東京都」のデータのみ BigQuery に投入したいため、「東京都」以外のデータを削除するようにステップを作ります。

  • 変換(Choose a transformation) → 「delete」を選択する
  • 条件(Condition) → if(notequal({都道府県が入っているカラム名}, '東京都'), true, false)

↑のようにすると、「東京都」以外のデータは削除されますが、これは UI 上そう見えるだけで実際には削除されていません。Dataprep は作成したステップに基いて変換(加工)したデータをプレビューするだけの機能と考えると良いと思います。

dataprep05.png

BigQuery に出力する

ステップの作成がすべて完了したら、ジョブを走らせて BigQuery に変換(加工)後のデータを出力してみます。画面右上の Run Job ボタンをクリックします。

dataprep06.png

Add Publishing Action で出力先に BigQuery を選択します。今回の例では dataprep というデータセットの中に customer というテーブルに出力します。

dataprep07.png

次に出力方法を指定します。データを追加するのか、既存のデータをすべて削除して入れるのか、テーブルを削除してから入れるのかのいずれかを選択します。

dataprep08.png

以上でジョブの作成は完了です。それでは、このジョブを実際に実行してみましょう!ジョブを実行すると、コンソールに次のように実行状態が表示されます。

dataprep09.png

裏側で Dataflow が実行されるので眺める

ジョブを走らせると、裏側では Cloud Dataflow が頑張ってるので、チラッと様子を見てみましょうww

dataflow.png

実行ジョブの結果を確認する

ジョブが完了すると Dataprep のコンソールで次のように表示されます。

dataprep03.png

View Results で詳細画面に遷移します。

dataprep09.png

BigQuery にちゃんと入っているか確認する

東京都の顧客データのみ格納されていることが確認できます。これだけなら別に全データを投入してクエリーで弾けば済む話なのですが、ユースケースが思いつかなかっただけなのでご容赦ください :bow:

bigquery.png

所感 など...

コーディング不要でデータの変換や加工、あるいはちょっとした分析を行うには手軽に使えて良いと思います。ただ、ノンコーディングツールは大抵の場合 UI への抵抗(不慣れ)があったり、仕様や機能に制約されることが多く Dataprep も例外ではないと感じます。コード書く派の自分としては、ちょっともどかしさを感じる部分もありますが、ポチポチっで済んでしまうところは楽ちんですし、利用目的によって使うとイイかなっと思います。現状、個人的には、こういう機能が GCP にあることを知ってくおく程度で良いかなっと思ってます :scream_cat:

改善してほしい点

レシピの編集において、ステップの順序をドラッグ・アンド・ドロップで変更できるとイイなって思います :bulb:

dataprep10.png