Connect to Databricks | Databricks on AWS [2022/1/22時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
本書では、Databricksで利用するために接続することができるさまざまなデータソース、BIツール、開発ツールを紹介します。これらの多くはパートナーシステム、あるいはPartner Connectハブを通じて利用することができます。
Partner Connect
Partner Connectは、Databricksクラスター、SQLエンドポイントと検証済みソリューションを容易にインテグレーションすることができるユーザーインタフェースです。
詳細に関しては、Databricks Partner Connectガイドをご覧ください。
データソース
Databricksでは、Amazon S3、Google BigQuery、Google Cloud Storage、Snowflakeなどのプロバイダーに格納されている、CSV、Delta Lake、JSON、Parquet、XMLなどさまざまなデータフォーマットを読み書きできます。
包括的なリスト、接続手順に関しては、Data ingestion、Data sourcesをご覧ください。
BIツール
Databricksでは、Power BI、Tableauなどを含むお使いのBIとの検証済みインテグレーションを提供しており、ローコード、ノーコードの体験を通じて、多くのユースケースでDatabricksクラスター、SQLエンドポイントを活用してデータを操作することができます。
包括的なリスト、接続手順に関しては、BI and visualizationをご覧ください。
その他のETLツール
あらゆる種類のデータソースにアクセスできることに加え、Databricksではdbt、Prophecy、Azure Data FactoryのようなETL/ELTツール、Airflowのようなデータパイプラインオーケストレーションツール、DataGrip、DBeaver、SQL Workbench/JのようなSQLデータベースツールとのインテグレーションを提供しています。
接続手順については、以下を参照ください。
- ETLツール: Data preparation and transformation
- データパイプラインオーケストレーションツール: Airflowによるデータパイプラインの依存関係の管理
- SQLデータベースツール: Use other tools、Access Delta tables from external data processing engines
IDE、その他の開発ツール
Databricksでは、DataGrip、IntelliJ、PyCharm、Visual Studio Codeなどの開発ツールをサポートしており、コーディングにおいてDatabricksクラスター、SQLエンドポイントを活用することができます。
包括的なリスト、接続手順に関しては、Developer tools and guidanceを参照ください。
Git
DatabricksのReposはお使いのGitプロバイダーとのレポジトリレベルでのインテグレーションを提供し、Databricksノートブックでコードを開発し、リモートのGitリポジトリと同期することが可能となります。詳細はDatabricks ReposによるGit連携をご覧ください。