概要
2024 年 6 月 24 日に、 TOROCCO が Databricks への書き込み機能をリリースしたため、検証してみました。Salesforce -> TROCCO -> Databricks の連携を実施しましたが、とても簡単にパイプラインを構築できることに驚きました。Databricks へのデータ転送方法に悩まれている方は TROCCO の利用を検討してもいいかもしれません。
基本情報
TROCCO とは
TROCCO(トロッコ)とは、データ分析基盤の構築と運用を支援するSaaS(Software as a Service)です。主にデータエンジニアリング領域のETL/データ転送、データマート生成、ジョブ管理、データガバナンスなどをカバーしているようです。多機能、かつ、コストパフォーマンスに優れたサービスであることから、導入されている事例を耳にすることが増えてきました。
引用元:TROCCO(トロッコ)|データ分析基盤の総合支援サービス
Databricks とは
Databricksは、データとAIを統合するためのデータインテリジェンスプラットフォームです。このプラットフォームは、レイクハウスアーキテクチャを基盤としており、オープンな統合環境を通じて、あらゆるデータとガバナンス要件をサポートします。
引用元:https://www.databricks.com/jp
Salesforce とは
Salesforce(セールスフォース)は、世界で最も広く利用されている顧客関係管理(CRM)プラットフォームです。営業、カスタマーサービス、マーケティング、Eコマースなど、ビジネスのあらゆる面で顧客データを中心に活動を進めることを可能にするクラウドベースのソフトウェアを提供しています。
引用元:Salesforceとは? | セールスフォース・ジャパン
環境の準備
TROCCO のフリープランの申し込み
引用元:フリープランお申し込み|TROCCO(トロッコ) - データ分析基盤の総合支援サービス
Databricks 環境の準備
Databricks の無償版もあるようですが、今回は手元にあった環境で検証することとしました。
引用元:Databricks 無料トライアル | Databricks
Salesforce 環境の準備
Salesforce の無償環境を利用できる Trailhead を申し込みます。
ハンズオン組織として、Playground を作成してください。
組織に接続後にログイン情報を取得する
タブにてパスワードをリセットする
を選択してパスワードを設定してください。
TROCCO による Datbrricks のデータ連携検証
1. Databricks の事前準備
1-1. Databrics にログインし、 SQL Editor タブにて Databricks 上に書き込み先のカタログとスキーマを作成
CREATE CATALOG IF NOT EXISTS trocco_test_01;
CREATE SCHEMA IF NOT EXISTS trocco_test_01.shcmea_01;
1-2. Databricks にて SQL Warehouses
-> Stater Warehouse
-> Connection datails
を選択して、 TROCCO に登録するための Server hostname
とHTTP path
の接続情報を取得
1-3. Databricks のドキュメントを参考に Databricks アクセストークンを取得
2. TROCCO にて Databricks へ書き込み
2-1. TROCCO にログイン後に Databricks の接続情報を作成して保存
ボタンを選択
2-2. TROCCO にて Salesforce の接続情報を作成してSaleforceアカウント認証
を選択して Salesforce への認証を実施後に保存
ボタンを選択
2-3. Salesforce の Account オブジェクトを Databricks のテーブルに書き込むデータ転送設定を作成
2-4. 作成したデータ転送を実施
2-5. 転送ジョブが正常終了することを確認
3. Databricks にてデータを確認
3-1. Databricks にて作成されたテーブル(trocco_test_01.shcmea_01.account_cloned
)にデータが格納されることを確認
SELECT
*
FROM
trocco_test_01.shcmea_01.account_cloned;