これまではGated Public Previewでしたが、AWS/Azureであればパブリックプレビューで利用できます!
ただ、現時点で利用できるコネクタはSalesforceのみです。その他のコネクタも順次利用できるようになる予定です。
LakeFlowとは
これは、プロダクションデータパイプラインを構築および運用するために必要なすべてを含む新しいソリューションです。MySQL、Postgres、SQL Server、Oracleなどのデータベースや、Salesforce、Microsoft Dynamics、NetSuite、Workday、ServiceNow、Google Analyticsなどの企業アプリケーション向けの新しいネイティブで高スケーラビリティのコネクタが含まれています。ユーザーは標準SQLおよびPythonを使用して、バッチおよびストリーミングでデータを変換できます。
さらに、Apache Spark向けのリアルタイムモードを発表し、従来のマイクロバッチよりもはるかに高速なレイテンシでストリーム処理が可能になります。最後に、CI/CDを使用してワークフローをオーケストレーションおよびモニタリングし、本番環境にデプロイできます。Databricks LakeFlowはData Intelligence Platformにネイティブに組み込まれており、サーバーレスコンピュートとUnity Catalogによる統一ガバナンスを提供します。
ウォークスルー
こちらのマニュアルに従って動かしてみます。
接続の作成
LakeFlow Connectでデータを取り込むには、データソースとの接続が必要となります。こちらの手順に従って接続を作成します。なお、こちらはダミーデータを格納しているSalesforce環境です。
取り込みパイプラインの作成
サイドメニューからデータ取り込みにアクセスすると、DatabricksコネクターにSalesforceが表示されていますので、こちらをクリックします。
上で作成した接続を選択し、パイプライン名や取り込み先のカタログを指定します。
次に進めると、コンピュートリソースが起動し、取り込むテーブルを選択できるようになります。
ここでは、Account
とOpportunity
を取り込みます。
取り込み先のスキーマを選択、あるいは作成します。
最後にスケジュールや通知設定を行い、内容を確認してデータ取り込みパイプラインを起動します。
取り込みパイプラインの起動
このパイプラインの実態はDelta Live Tables(もうすぐLakeFlow Pipelinesに名前が変わります)です。
処理が完了したらテーブルを確認します。
コネクターは今後も拡充されていきますので、続報をお待ちください!