Databricks の SQL Warehouse - Serverless を使用したWebアプリケーション例
目次
はじめに
皆様はDatabricksにDWHの機能があることをご存知でしょうか。
Databricksをご存知の方は
「PythonとかSQLを書いてSparkで処理するんでしょ」
「MLFlowで機械学習のモデル管理とかできるんでしょ」
「Unity Catalogっていうガバナンスモデルがあるんでしょ」
など色々な印象をお持ちかと思います。全て正解ですが、SQL WarehouseなしでDatabricksを語ることはできません。弊社が提供するData Intelligence Platformの重要な機能の一つです。
Data Intelligence Platform 構成要素のイメージ
この記事では下記の対象者向けにDatabricksSQL(特にServerlessSQL)をご認識いただき、あわよくば使い始めていただくことを目的としております。もし当てはまりそうでしたら是非読み進めてみてください。
【対象者】
- Databricksを使っていない
- DatabricksのDWH機能にご興味がある方
- Databricksを既に使っている
- SQL Warehouseを使っているが、ServerlessSQLを使ったことがない方
- SQL Warehouseは使ったことがない方
【目的】
- DatabricksSQL(特にServerlessSQL)の機能や使い方、活用例をご認識いただく
- ServerlessSQLを使い始めていただく
データブリックスのSQLWarehouseとは?
ServerlessSQLをご紹介する前にDatabricksのSQL Warehouseについて簡単にご紹介すると
「Databricks上でSQLを使った処理が可能なDWH機能」です。
一般的なDWHと同様にアドホックなSQLクエリを書いたり、BIダッシュボードの裏側で使っていただいたり、定期的なETLジョブを実行するために使っていただくことができます。
Data Warehouse 機能のイメージ。BI、データ分析、アプリケーション用にデータを変換・蓄積
元々DatabricksはManaged SparkのサービスやMLFlowを提供していましたが、2020年以前はDWHの機能がありませんでした。DWH機能の需要に応える形で2020年にDatabricks SQL(現在はSQL Classicと呼ばれる)をリリースしました。その後、Python UDFや地理空間情報のサポート、Predictive I/Oを盛り込んでいるSQL Proが2022年にリリースされ、2023年にはServerlessSQLがリリースされました。2023年11月からAzureの東日本リージョン、AWSの東京リージョンでも2024年2月末から利用可能になっています。
Databricks SQLの歴史。Databricks SQL リリースノートより作成
ServerlessSQLの推しポイント
ここではServerlessSQLの推しポイントを3点ご紹介したいと思います。
起動時間の早さが一番の推しポイントで、最適化の機能が充実している点とコストパフォーマンスの高さが続きます。
起動時間が早い
こちらが個人的に一番嬉しいServerless SQLの改善点です。従来のDatabricksSQL(Pro / Classic)はそれぞれ起動に4分程度かかっていました。(公式ドキュメント)
クエリの度に都度起動→4分待っているとユーザーエクスペリエンスとして最適ではありません。常時Warehouseを立ち上げていく場合は問題ないですが、コストが嵩んでしまいます。Serverless SQLは2-6秒(公式ドキュメント)で起動するため、すぐにクエリを実行できてユーザーエクスプリエンスが大きく向上していると感じます。
SQLウェアハウスのタイプ記載の各SQLタイプの起動時間より作成
パフォーマンス最適化の機能が充実している
SQLタイプごとに最適化のための機能が異なるのですが、簡単にまとめると下表のようになります。
見ていただくとわかる通り、Databricksとして推奨する全ての機能を持つのはServerlessになります。
機能 | Serverless | Pro | Classic |
---|---|---|---|
Photonエンジン | ○ | ○ | ○ |
Predictive I/O | ○ | ○ | |
インテリジェント ワークロード管理 (IWM) | ○ |
- Photon : Databricks 上のクエリエンジン。 これにより、既存の SQL および DataFrame API 呼び出しが高速化され、ワークロードあたりの総コストが削減されます。
- Predictive I/O : SQL クエリでの選択的スキャン操作を高速化するための一連の機能。 予測 IO は、さまざまな高速化を提供できます。
- インテリジェント ワークロード管理 (IWM) : 大量のクエリを迅速かつコスト効率よく処理する Databricks SQL サーバーレスの機能を強化する一連の機能。 AI を活用した予測および動的管理技術を使用して、ワークロードに適切な量のリソースが迅速に確保されるように機能します。
詳細な機能比較はこちらの比較ページをご覧ください。
また、パフォーマンスチューニング方法はワークロードによって異なります。弊社シニアスペシャリストソリューションアーキテクトの@Mitsuhiro_Itagaki が書いたこちらの記事もご参照ください。
コストパフォーマンスが高い
機能が充実している分、値段が気になる方が多いのではないかと思います。下表 Pricing を見ていただくと、Serverlessの単価が一番高くなっています。機能が充実している分、料金が高いのではないかと思われることもあるのですが、そんなことはありません。
Pro/Classicでは別途クラウドプロバイダーにインフラコスト(EC2やVM)が発生しますがServerlessの場合はそちらが発生しないため、トータルでコスト削減につながる場合が多いです。こちらは現在のワークロードによっても変わってきますので、詳細をご確認したい場合は弊社営業担当にご連絡いただけますと幸いです。
使い始める
使い方は下記動画をご参照ください。Databricksの画面左のパネルに存在する「SQLウェアハウス」から「SQLウェアハウスを作成」簡単に起動することができます。
@ktksq作成のServerless SQL 利用開始手順のデモ
活用例
どのような用途で使えるかですが、ウェブアプリケーションやBIダッシュボードのバックエンドとして使っていただくこともできますし、SQLを使ったETLジョブを定期的に実行する際に使っていただくことも可能です。
ウェブアプリケーション
Databricks の SQL Warehouse(Serverless) を使用したWebアプリケーション例
詳細は下記のリンクをご参照ください。Plotly DashとServerless SQLを使用したダッシュボード作成を紹介してくださっています。
Building Plotly Dash Apps on a Lakehouse with Databricks SQL
BIダッシュボード
Databricks の SQL Warehouseとダッシュボード機能を使用した例
こちらは弊社のDemo集に存在するDatabricksの利用料金を確認・予測するダッシュボード構築のデモになります。
System Tables: Billing Forecast, Usage Analytics, and Access Auditing With Databricks Unity Catalog
おわりに
DatabricksのSQL Warehouse、特にServerless SQLについてご紹介いたしましたがいかがでしたでしょうか。
Databricksを既に利用している方々が Serverless SQL に少しでも触れてみたいと思っていただけましたら幸いです。またDWH機能を探されている方々にも有益な情報をご提供できていましたら嬉しいです。
ご質問などあればお気軽にTwitterやLinkedInまでご連絡ください。
また公式Twitterにも最新のプロダクト情報を投稿しているので、是非フォローしてください。
参照リンク