Databricks Cluster vs SQL Warehouses | by Ganesh Chandrasekaran | Oct, 2022 | Mediumの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Databricksのプレミアムアカウントを使用しているのであれば、Data EngineeringとMachine Learningに加えてSQLペルソナを目にかけることでしょう。
Databricks SQLペルソナ
Data EngineeringやMachine Learningを使っているのであれば、(インタラクティブあるいはジョブ)クラスターを起動しますが、SQLペルソナを使っている場合には、標準のDatabricksクラスターではなくSQLウェアハウス(以前のSQLエンドポイント)であることに気づくことでしょう。
本書では、DatabricksクラスターとSQLウェアハウスの違いをクイックにまとめます。
Databricks - SQLウェアハウスの作成
- SQLウェアハウス(エンドポイント)はSQLコマンドを実行するために開発されており、Scala/R/PythonやSQLコマンドを実行するために開発されています。
- SQLウェアハウス(エンドポイント)ではJAR、PIP、WHLのようなライブラリのオーバヘッドがなく、クラスターではライブラリによるオーバヘッドが生じることがあります。
- SQLウェアハウス(エンドポイント)はSQLウェアハウスの管理を簡素化しており、起動時間を加速します。クラスターの設定は初めての方にとっては複雑なものになる場合があります。
- SQLウェアハウス(エンドポイント)はクラスターとしてスケールアップ/スケールダウンします。クラスターはノードごとにスケーリングし、最大範囲までスケールアップします。
- SQLウェアハウス(エンドポイント)には、起動時間を劇的に削減するサーバレスの機能(プライベートプレビュー)がありますが、クラスターではその機能はまだありません。
次の項目は違いではなく、両方で利用できる機能です。
SQLウェアハウス(エンドポイント)とクラスターの両方はTableauのようなBIツールからの接続に使用でき、自動起動の機能を有しています。