概要
CData Connect というサービスを検証していたところ、Databricks と CData Connect で実現できるデータ仮想化プラットフォームの方法論を思いついたため共有します。Databricks Lakehouse Federation では多くのデータベースのデータを仮想化できますが、 CData Connect を導入することで 100 以上の PaaS サービスもデータ仮想化できるようになります。本記事では、 Cdata Connect と Databricks Lakehouse Federation に関する基本情報を記述した上で、 Salesforce をソースとした検証手順を共有します。
CData Connect について
CData Connect を提供する CData 社について
CDataは、データ統合ソリューションを提供する企業であり、主にデータ接続と統合に特化した製品を提供しています。私は過去にとある SaaS サービスからデータ連携をするコネクターを利用したことがあり、サポート対応がとても親切であった印象があります。
引用元:CData Software Japan | リアルタイムデータ連携をCData で実現
アメリカのノースカロライナ州にグローバル本社を置くIT企業なのですが、日本法人は仙台にあるそうです。私の感想ではありますが、CData 日本法人の方は日本にある他の外資系 IT 企業の方々とは少し異なり、穏やかな印象があります。
引用元:CDataが仙台に本社を置く理由 | SENDAI INC. (sendai-inc.com)
CData Connect について
CData Connectは、CDataが提供するクラウドベースのデータ接続プラットフォームであり、異なるデータソース間でのデータ統合とリアルタイムデータの可視化を簡単に行えるように設計されています。このサービスは、クラウド、オンプレミス、SaaSアプリケーションなど、様々なデータソースに接続し、シームレスにデータを統合するためのソリューションです
引用元:CData Connect | ユニバーサルなデータ接続プラットフォーム
サポートされているデータソースとしては下記のものがあり、 100 以上の PaaS サービスをサポートしているようです。
引用元:CData Software Japan - CData Connect Connectors
Databricks Lakehouse Federation の概要と課題について
Databricks Lakehouse Federation とは
Databricks Lakehouse Federationは、Databricksが提供するデータ統合機能で、データソースに対してシームレスにクエリを実行し、統合的に分析するためのソリューションです。この機能は、データレイクハウスの利便性と、異なるデータソースへのアクセスと統合を組み合わせることにより、企業がデータの一元管理と分析をより効率的に行えるように設計されています。
引用元:Lakehouse Federationの一般提供を開始 | Databricks Blog
サポートされているデータソースがデータベースのみであることが現状の課題
2024年9月2日時点でサポートされているデータソースは下記です。データベースを中心にサポートされているなど、PaaS サービス上のデータ取得する方法が課題となっていました。
引用元:レイクハウスフェデレーションとは何ですか? | Databricks on AWS
Databricks Lakehouse Federation の課題に対する Cdata のソリューション
CData Connect の機能にて Databricks Lakehouse Federation のソースとできる機能に気づいたため、下記のアーキテクチャを検証することとしました。後述する通り、 Salesforce をソースとした場合には想定通りの動作をしました。
Databricks Lakehouse Federation にて Cdata Connect 経由で Salseforce のデータを取得する手順
1. 環境準備
1-1. CData Connect のトライアルの申し込み
下記リンク先から無償トライアルを申し込みます。
CData Connect Cloud サインアップフォーム | CData Software Japan
引用元:CData Connect Cloud サインアップフォーム | CData Software Japan
下記の記事が参考になります。
引用元:CData Connect Cloud トライアル取得方法(2022/12現在) | CData Software Blog
1-2. Databricks の準備
Databricks の無償版もあるようですが、今回は手元にあった環境で検証しました。
引用元:Databricks 無料トライアル | Databricks
1-3.Salesforce 環境の準備
Salesforce の無償環境を利用できる Trailhead にて、ハンズオン組織として、Playground を作成しました。
2. CData Connect にて Salesforce との接続を確立
2-1. Cdata Connect の Connection タブにてSalesforce_01
という名称の Salseforce の接続情報を作成
Salesforce の検証環境にログインしている状態で下記の Sign In をクリックすることで認証が可能です。
2-2. Data Explorer タブにてデータを取得できることを確認
SELECT * FROM [Salesforce_01].[Salesforce].[Account]
3. Databricks Lakehouse Federation に CData Connect を登録
3-1. CData Connectにて設定 -> Access Tokens にてトークンを作成
3-2. Databricks の Catalog Explorer にて CData Connect に対する Connection を作成
3-3. 作成済みの Connection を用いた外部カタログを作成
3-4. Databricks から データを取得できることを確認
%sql
select * from `manabian_cdata_salesforce`.`salesforce`.`account` limit 100;
まとめ
Databricks と CData Connect で実現できるデータ仮想化プラットフォームに関する基本的な情報を整理しました。本アイディアは有益なアーキテクチャであると考えているため、より深い検証をしていみたいと考えております。