これは何
Cloud data fusionの導入までを描いたメモです。
実際にデータを移行させたわけではなく、立ち上げのみです。
Cloud data fusionとは
クラウドデータをあらゆる規模で統合するためのツールです。
コード等を意識せず、マウスだけで視覚的に操作できるインターフェースによって、ETL(Extract/Transform/Load)パイプラインをデプロイ可能です。
Cloud data fusionインスタンス立ち上げ
リージョンをasiaではなく、us-とかにすると、HUBの立ち上げに恐ろしく時間がかかったので、asiaにしました。
最新版だとサービスアカウントのところで、権限エラーが発生。
今回はテスト的な導入で使いたいだけで、最新版である必要がないのでバージョンを6.1.4にします。
作成に20分くらいかかります。
インスタンスを表示を押下します。
Studioを押下
総括
インスタンスの立ち上げは成功しました。
今回はETLパイプラインを作成してはいませんが、作成したらまたまとめます。
なお、Google Cloud が提供してくれている、以下の小さなサンプル データセットをローカルマシンにダウンロードして、パイプラインを作ることもできます。
配送データのクレンジング
https://cloud.google.com/data-fusion/docs/tutorials/sample_datasets/shipment-data-cleansing-cdap-data-pipeline.json?hl=ja
米国での配送遅延
https://cloud.google.com/data-fusion/docs/tutorials/sample_datasets/delayed-shipments-us-cdap-data-pipeline.json?hl=ja
参考
https://cloud.google.com/iam/docs/understanding-service-accounts?hl=ja
https://cloud.google.com/data-fusion?hl=ja
https://cloud.google.com/data-fusion/docs/tutorials/lineage?hl=ja
https://qiita.com/t-yotsu/items/5d3d36847fbc71b72b76