Databricks integrations overview | Databricks on AWS [2022/10/5時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
本書では、Databricksで使用できるデータソース、BIツール、開発ツールからなる大規模なラインナップにどのように接続するのかに関して情報を提供します。
Partner Connect
Partner Connectは、お使いのDatabricksクラスターやSQLウェアハウスとよりクイックかつ簡単にインテグレーションするための検証済みソリューションに対するユーザーインタフェースです。
詳細はDatabricks Partner Connectガイドをご覧ください。
データソース
DatabricksはCSV、Delta Lake、JSON、Parquet、XMLなどの様々なデータフォーマットや、Amazon S3、Google BigQueryやCloud Storage、Snowflakeなどのデータストレージプロバイダーのデータを読み書きすることができます。
接続手順を含む包括的なリストに関しては、データ取り込みツールや外部データの取り扱いをご覧ください。
BIツール
Databricksでは、Power BI、Tableauなどを含むお使いのBIツールとのインテグレーションを検証しており、多くの場合、ローコードやノーコードの体験でDatabricksクラスターやSQLウェアハウスを通じてデータを操作することができます。
接続手順を含む包括的なリストに関しては、BIと可視化をご覧ください。
その他のETLツール
すべてのタイプのデータソースに対するアクセスに加えて、Databricksではdbt、Prophecy、Azure Data FactoryのようなETL/ELTツール、Airflowのようなデータパイプラインオーケストレーションツール、DataGrip、DBeaver、SQL Workbench/JのようなSQLデータベースツールとのインテグレーションを提供しています。
接続手順に関しては、以下をご覧ください。
- ETLツール: Data preparation and transformation
- Airflow: Orchestrate Databricks jobs with Apache Airflow
- SQLデータベースツール: Use a SQL database tool
IDEとその他の開発ツール
Databricksでは、DataGrip、IntelliJ、PyCharm、Visual Studio Codeのような開発ツールをサポートしており、コードを記述することでDatabricksクラスターやSQLウェアハウスを通じてデータを操作することができます。
Git
Databricks Reposは、お使いのGitプロバイダーとのリポジトリレベルのインテグレーションを提供するので、Databricksノートブックでコードを開発し、リモートのGitリポジトリと同期することができます。Databricks ReposによるGit連携をご覧ください。