5
2

Databricks と CData Connect で実現する Salesforce を含む 100 以上の PaaSサービスを含めたデータ仮想化プラットフォームの実装案

Posted at

概要

CData Connect というサービスを検証していたところ、Databricks と CData Connect で実現できるデータ仮想化プラットフォームの方法論を思いついたため共有します。Databricks Lakehouse Federation では多くのデータベースのデータを仮想化できますが、 CData Connect を導入することで 100 以上の PaaS サービスもデータ仮想化できるようになります。本記事では、 Cdata Connect と Databricks Lakehouse Federation に関する基本情報を記述した上で、 Salesforce をソースとした検証手順を共有します。

image.png

CData Connect について

CData Connect を提供する CData 社について

CDataは、データ統合ソリューションを提供する企業であり、主にデータ接続と統合に特化した製品を提供しています。私は過去にとある SaaS サービスからデータ連携をするコネクターを利用したことがあり、サポート対応がとても親切であった印象があります。

image.png

引用元:CData Software Japan | リアルタイムデータ連携をCData で実現

アメリカのノースカロライナ州にグローバル本社を置くIT企業なのですが、日本法人は仙台にあるそうです。私の感想ではありますが、CData 日本法人の方は日本にある他の外資系 IT 企業の方々とは少し異なり、穏やかな印象があります。

image.png

引用元:CDataが仙台に本社を置く理由 | SENDAI INC. (sendai-inc.com)

CData Connect について

CData Connectは、CDataが提供するクラウドベースのデータ接続プラットフォームであり、異なるデータソース間でのデータ統合とリアルタイムデータの可視化を簡単に行えるように設計されています。このサービスは、クラウド、オンプレミス、SaaSアプリケーションなど、様々なデータソースに接続し、シームレスにデータを統合するためのソリューションです

image.png

引用元:CData Connect | ユニバーサルなデータ接続プラットフォーム

サポートされているデータソースとしては下記のものがあり、 100 以上の PaaS サービスをサポートしているようです。

image.png

引用元:CData Software Japan - CData Connect Connectors

Databricks Lakehouse Federation の概要と課題について

Databricks Lakehouse Federation とは

Databricks Lakehouse Federationは、Databricksが提供するデータ統合機能で、データソースに対してシームレスにクエリを実行し、統合的に分析するためのソリューションです。この機能は、データレイクハウスの利便性と、異なるデータソースへのアクセスと統合を組み合わせることにより、企業がデータの一元管理と分析をより効率的に行えるように設計されています。

image.png

引用元:Lakehouse Federationの一般提供を開始 | Databricks Blog

サポートされているデータソースがデータベースのみであることが現状の課題

2024年9月2日時点でサポートされているデータソースは下記です。データベースを中心にサポートされているなど、PaaS サービス上のデータ取得する方法が課題となっていました。

image.png

引用元:レイクハウスフェデレーションとは何ですか? | Databricks on AWS

Databricks Lakehouse Federation の課題に対する Cdata のソリューション

CData Connect の機能にて Databricks Lakehouse Federation のソースとできる機能に気づいたため、下記のアーキテクチャを検証することとしました。後述する通り、 Salesforce をソースとした場合には想定通りの動作をしました。

image.png

Databricks Lakehouse Federation にて Cdata Connect 経由で Salseforce のデータを取得する手順

1. 環境準備

1-1. CData Connect のトライアルの申し込み

下記リンク先から無償トライアルを申し込みます。

CData Connect Cloud サインアップフォーム | CData Software Japan

引用元:CData Connect Cloud サインアップフォーム | CData Software Japan

下記の記事が参考になります。

image.png

引用元:CData Connect Cloud トライアル取得方法(2022/12現在) | CData Software Blog

1-2. Databricks の準備

Databricks の無償版もあるようですが、今回は手元にあった環境で検証しました。

image.png

引用元:Databricks 無料トライアル | Databricks

1-3.Salesforce 環境の準備

Salesforce の無償環境を利用できる Trailhead にて、ハンズオン組織として、Playground を作成しました。

image.png

引用元:Log in (salesforce.com)

image.png

2. CData Connect にて Salesforce との接続を確立

2-1. Cdata Connect の Connection タブにてSalesforce_01という名称の Salseforce の接続情報を作成

Salesforce の検証環境にログインしている状態で下記の Sign In をクリックすることで認証が可能です。

image.png

2-2. Data Explorer タブにてデータを取得できることを確認

SELECT * FROM [Salesforce_01].[Salesforce].[Account]

image.png

3. Databricks Lakehouse Federation に CData Connect を登録

3-1. CData Connectにて設定 -> Access Tokens にてトークンを作成

image.png

3-2. Databricks の Catalog Explorer にて CData Connect に対する Connection を作成

image.png

3-3. 作成済みの Connection を用いた外部カタログを作成

image.png

3-4. Databricks から データを取得できることを確認

%sql
select * from `manabian_cdata_salesforce`.`salesforce`.`account` limit 100;

image.png

まとめ

Databricks と CData Connect で実現できるデータ仮想化プラットフォームに関する基本的な情報を整理しました。本アイディアは有益なアーキテクチャであると考えているため、より深い検証をしていみたいと考えております。

image.png

5
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
2