Ingest data from SQL Server, Salesforce, and Workday with LakeFlow Connect | Databricks Blogの翻訳です。
本書は著者が手動で翻訳したものであり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
シンプルかつ効率的な取り込みコネクターがパブリックプレビューに
SQL Server、Salesforce、Workday向けのLakeFlow Connectのパブリックプレビューを発表できることを嬉しく思っています。これらの取り込みコネクターによって、内部ではインクリメンタルなデータ処理やスマートな最適化が行われることになり、データベースやエンタープライズアプリからのデータ取り込みをシンプルかつ効率的なものにします。LakeFlow Connectは、データインテリジェンスプラットフォームネイティブなのでサーバレスの計算資源とUnity Catalogのガバナンスの両方を提供します。究極的には、これは企業がデータの移動に費やす時間を削減し、データから価値を得ることをにフォーカスできるようになることを意味します。
これをより広くとらえると、Data + AIサミットで発表した取り込み、変換、オーケストレーションに対する統合ソリューションであるLakeFlowのよるDatabricksにおけるデータエンジニアリングの未来の実現に向けた重要なステップといえます。LakeFlow Connectは、変換処理のためのLakeFlow Pipelinesや、オーケストレーションのためのLakeFlow Jobsとシームレスに動作することになります。これらによって、皆様のビジネスにより新鮮で品質の高いデータを提供できるようになります。
データ取り込みにおける課題
企業には幅広いデータソースが存在しています: エンタープライズアプリ、データベース、メッセージバス、クラウドストレージなどです。それぞれのソースのニュアンスに対応するためには、多くの場合においていくつかの課題をもたらすカスタムの取り込みパイプラインを構築、維持することになります。
- 複雑な設定とメンテナンス: 特にソースシステムに影響を与えることなしに、データベースに接続することは困難です。また、変化し続けるアプリケーションのAPIを学習、追従することも大変です。このため、カスタムパイプラインの構築、最適化、メンテナンスには多大なる工数が必要となり、限定的なパフォーマンスやコストの増加につながります。
- 特殊なチームへの依存: この複雑性のため、取り込みパイプラインには多くの場合において、非常にスキルの高いデータエンジニアが必要となります。これは、データの消費者(HRのアナリスト、フィナンシャルプランナーなど)は特殊なエンジニアリングチームに依存することになり、生産性やイノベーションを限定してしまうことを意味します。
- 限定的なガバナンスのつぎはぎのソリューション: パイプラインのパッチワークのため、ガバナンス、アクセス制御、観測可能性、リネージの確立が困難となります。これは、セキュリティリスクやコンプライアンスの課題、問題のトラブルシュートの困難さにつながることになります。
LakeFlow Connect: 全てのチームにシンプルで効率的なデータ取り込みを
LakeFlow Connectはこれらの課題に対応するので、すべての実践者が容易に大規模なインクリメンタルデータパイプラインを構築できるようになります。
LakeFlow Connectは設定や維持管理がシンプルです
まず、このコネクターはセットアップが数ステップで済みます。さらに、コネクターをセットアップしたらDatabricksによって完全に管理されます。これによって、メンテナンスのコストを削減します。また、取り込み処理には特殊な知識は不要であり、あなたの組織全体でデータが民主化されることを意味します。
「Salesforceコネクターのセットアップはシンプルで、我々のデータレイクにデータを同期する機能を提供してくれています。これによって、開発とサポートの時間を大幅に削減し、我々の移行を迅速に行ってくれました」 — Martin Lee, Technology Lead Software Engineer, Ruffer
LakeFlow Connectは効率的です
内部では、効率的なインクリメンタル処理のために設計されたDelta Live TablesをベースとしてLakeFlow Connectのパイプラインが構築されています。さらに、コネクターの大部分は、ソースシステムで変更されたデータのみを読み書きします。そして、我々はそれぞれのコネクターのパフォーマンスと信頼性を最適化しつつも、ソースシステムへのインパクトを制限するために、Arcionのソース固有のテクノロジーを活用しています。
取り込みは一番最初のステップですので、ここで止まるわけではありません。メダリオンアーキテクチャに沿ってデータが処理されるように、インクリメンタルにあなたのデータを変換する効率的なマテリアライズドビューを構築することもできます。特に、Delta Live Tablesは更新内容をあなたのビューをインクリメンタルに処理することができますが、全ての行を完全に再研鑽するのではなく、変更が必要な行のみを更新します。時間が経過するとともに、これはあなたの変換処理のパフォーマンスの劇的な改善に繋がり、あなたのエンドツーエンドのETLパイプライオンをさらに効率的なものにします。
「このコネクターはSalesforceとDatabricks間のシームレスかつロバストなインテグレーションを提供することで、我々のデータ転送能力を強化しています。(中略)データの抽出と準備に必要な時間は、おおよそ3時間から30分に短縮されました」— Amber Howdle-Fitton, Data and Analytics Manager, Kotahi
LakeFlow Connectはデータインテリジェントプラットフォームネイティブです
LakeFlow Connectはお使いのDatabricksのツール群と完全にインテグレーションされています。あなたのデータやAI資産と同様にUnity Catalogによって管理され、サーバレスコンピュートを用いたDelta Live Tablesで強化され、Databricks Workflowsによってオーケストレートされます。これによって、あなたの取り込みパイプラインに対する統合モニタリングのような機能を活用できます。さらに、同じプラットフォームに属しているので、データから最大の価値を得るために、Databricks SQL、AI/BI、Mosaic AIと組み合わせて活用することができます。
「Databricksの新たなSQL Server向けLakeFlow Connectorによって、ソースデータベースとDatabricksの間にあった中間製品...を排除することができました。これは、データ取り込みの高速化、コストの削減、サードバーティCDCソリューションの設定、メンテナンス、監視に要する工数の削減を意味します。この機能は我々のデータパイプラインを円滑にすることで、大きなメリットを提供しています」— Kun Lee, Senior Director Database Administrator, CoStar
エキサイティングなLakeFlowのロードマップ
コネクターの最初のウェーブでは、API経由でSQL Server、Salesforce、Workdayのパイプラインを作成することができます。しかし、このパブリックプレビューは始まりに過ぎません。向こう数ヶ月において、以下のような追加のデータソースに対するプライベートプレビューを開始する予定です:
- ServiceNow
- Google Analytics 4
- SharePoint
- PostgreSQL
- オンプレミスのSQL Server
また、ロードマップには以下のようなそれぞれのコネクターのさらにディープな機能が含まれています。
- コネクター作成UI
- データリネージ
- SCDタイプ2
- ロバストなスキーマ進化
- データのサンプリング
より広くとらえると、LakeFlow ConnectはLakeFlowの最初のコンポーネントにすぎません。今年の後半では、変換処理のためのLakeFlow PipelinesとオーケストレーションのためのLakeFlow Jobsのプレビューを計画しています。これらはそれぞれ、Delta Live TablesとWorkflowsの進化版となります。これらが利用できるようになった際の移行は不要です。これらの新機能に備えるベストな方法は、すぐにDelta Live TablesとWorkflowsを使い始めることです。
LakeFlow Connectを使い始める
SQL Server connector: チェンジデータキャプチャ(CDC)と変更追跡テクノロジーを備えた、インクリメンタルな読み込み機能とともに、Azure SQL DatabaseとAWS RDS for SQL Serverをサポートします。詳細は、Microsoft SQL Server コネクタ
をご覧ください。
Salesforce connector: Salesforce Sales Cloudからの取り込みをサポートしており、さらなる洞察とより正確な予測結果を提供するために、これらのCRMデータとデータインテリジェンスプラットフォームのデータを結合することができます。詳細はSalesforce コネクタをご覧ください。
Workday connector: Workday Reports-as-a-Service (RaaS)からの取り込みをサポートしており、分析やレポートの拡張が可能です。詳細はWorkday コネクタをご覧ください。
「LakeFlow ConnectのSalesforceコネクターは我々にとって重要なものとなっています。Salesforceのデータベースへの直接接続が可能となり、有償中間サービスの必要性を排除してくれました。」— Amine Hadj-Youcef, Solution Architect, Engie
プレビューにアクセスするには、Databricksアカウントチームにコンタクトしてください。
LakeFlow Connectでは、サーバレス版のDelta Live Tablesを使っているので、以下の点に注意してください:
- お使いのアカウントでサーバレスコンピュートを有効化する必要があります(有効化手順に関してはAzureとAWSのものをご覧ください。また、サーバレスが使えるリージョンに関してもAzureとAWSのものをご覧ください)。
- ワークスペースでUnity Catalogが有効化される必要があります。
他のガイドに関しては、LakeFlow Connectのドキュメントをご覧ください。